新年快乐!(农历) 2021 年对我们来说是重要的一年;我们创建了一家公司,并为您带来了 12 个新版本。现在我们都从假期回来,想要赶上进度吗?
我们最喜欢的功能如下,以及对本月网络研讨会的邀请、本月的查询技巧等。欢迎来到您每月一次的 ClickHouse 好礼。
ClickHouse 2021 年五大新功能
在 12 个月度版本中,ClickHouse 团队和我们优秀的贡献者社区发布了数百项功能和改进。这些是我们最喜欢的功能
- ClickHouse Keeper,我们对 Apache ZooKeeper 的替代方案,功能已完整!现在 ClickHouse 成为一个“真正”的单一二进制文件,您无需其他任何东西即可开始使用。Keeper 与原始 ZooKeeper 完全协议兼容,因此您也可以将其用于 Hadoop 或 Kafka 部署。
- 异步插入 模式现在可以对您的 ClickHouse 集群进行许多小的 INSERT 操作,而不会遇到可怕的“太多部分”错误。使用
async_insert
设置将其打开。 - 用户定义函数 (UDF) 允许您使用任何额外功能扩展 ClickHouse!您可以将 UDF 定义为 lambda 表达式,或者调用任何编程语言中的外部脚本。后者使其特别适合您拥有的任何 ML/AI/NLP 用例。查看教程此处。
- 新数据类型:Map、Bool、UInt128 使将所有数据导入 ClickHouse 变得更加容易。并且 嵌套 数据类型现在支持任意级别的嵌套。
- 位置参数 现在已得到支持!对于熟悉其他数据库的用户来说,这是一个小而有用的功能,您可以使用
enable_positional_arguments
设置将其打开。
有关我们在去年为您的最爱数据库添加的内容的更多信息,请查看我们的 博客,观看我们 YouTube 频道 上的发布网络研讨会的录音,或者通过查看 变更日志 来了解详细信息。
即将发布的 v22.2 版本
我们的下一个月度版本即将发布!我们预计将添加文本分类功能和灵活的内存限制。与往常一样,我们将举办一个发布网络研讨会,您将有机会现场提问并获得答案。
时间:太平洋标准时间上午 9 点/格林威治标准时间下午 5 点,2 月 17 日
加入方式:将 邀请添加到日历,或在 2 月 17 日 点击此链接。
本月查询:全文搜索表格
您是否曾经想过如何像使用搜索引擎一样同时搜索表格的所有列?您可以使用 ClickHouse 做到!有几种选择,它们使用 ClickHouse 中一些您可能(尚未)了解的巧妙功能。
选项 1
SELECT * FROM hackernews WHERE formatRow('TSV', *) ILIKE '%i love clickhouse%'
此查询使用 formatRow 函数将所有列连接成一个长的制表符分隔的字符串,并使用 ILIKE
进行搜索。
选项 2
SELECT * FROM hackernews WHERE concat(* APPLY x -> concat(toString(x), '<<>>')) ILIKE '%i love clickhouse%'
在此查询中,我们也连接了所有列,但没有使用制表符作为分隔符,而是可以自己指定分隔符,在本例中为 <>>
。APPLY 是一种很棒的修饰符,它允许我们在任何表达式(在本例中为所有列,但我们可以使用方便命名的 COLUMNS 表达式 指定列的子集)上调用函数(在本例中为 高阶 lambda 表达式)。
选项 3
SELECT * FROM hackernews WHERE (arrayExists(x -> positionCaseInsensitiveUTF8(x, 'i love clickhouse') > 0, array(* APPLY x -> toString(x))))
您是否注意到使用前两个选项时会发生什么?由于所有列都只是简单地连接成一个大字符串,因此如果有人(故意或意外地)搜索列分隔符,就可以跨列进行搜索。这里最后一个查询通过将所有列收集到一个数组中并使用 arrayExists 函数来检查是否有任何一个元素包含我们要搜索的短语,从而消除了这个问题。
在 Hacker News 数据集 上运行任何这些查询时,它们都找到评论“我喜欢 ClickHouse:它既简单又足够灵活,而且是免费软件”。哇,我们也喜欢 ClickHouse!
您最近是否编写了有趣的查询,您认为其他人可以从中学习?在 Twitter 上告诉我们,我们很想听听您的想法!
阅读角
我们在年初阅读的内容
- ClickHouse 22.1 中的新功能 – 我们的 v22.1 版本博客文章,宣布自动模式推断、在多个副本上进行并行查询处理、ClickHouse 的新诊断工具等等!
- Admixer 使用 ClickHouse 每天聚合超过 10 亿个唯一用户 – 广告技术平台 Admixer 从 MSSQL 和 Azure Table Storage 迁移到 ClickHouse,并且每秒可摄取超过 100 万行数据。
- 将您的报表查询从 MongoDB 迁移到 ClickHouse – 对 MongoDB 与 ClickHouse 在分析查询方面的基准测试。剧透预警:ClickHouse 更快!
- 大规模历史流量分析:使用 ClickHouse 和 ntopng – 使用 ClickHouse 进行高速流量收集和存储。
- ClickHouse, Inc. 如何打造一流的工程文化 – 从我们自己的 Yury Izrailevsky 那里了解一下我们是如何在 ClickHouse 构建我们的工程团队的。(剧透:这不是每天告诉人们该做什么。)
ClickHouse 新用户: ntop、Superwall、Muse 和 NLMK。加入我们吧!
感谢您的阅读。我们下个月再见!
ClickHouse 团队
图片来自 Fabien Maurin 在 Unsplash 上