新年快乐!(农历)新年快乐!2021 年对我们来说是意义重大的一年;我们成立了一家公司,并为您带来了 12 个新版本。现在我们都从假期回来了,想了解最新进展吗?
我们最喜欢的功能在下面列出,以及本月网络研讨会的邀请、本月的查询技巧等等。欢迎阅读本月的 ClickHouse 精品内容。
ClickHouse 2021 年的 5 大新功能
在 12 个月度版本中,ClickHouse 团队和我们由杰出贡献者组成的社区发布了数百个功能和改进。以下是我们最喜欢的功能
- ClickHouse Keeper,我们 Apache ZooKeeper 的替代方案,功能已完善!现在,ClickHouse 是一个“真正”的单二进制文件,您无需任何其他东西即可开始使用。Keeper 与原始 ZooKeeper 完全协议兼容 — 因此您也可以将其用于您的 Hadoop 或 Kafka 部署。
- 异步插入 模式现在可以对您的 ClickHouse 集群进行许多小的 INSERT 操作,而不会遇到可怕的“Too many parts”错误。使用
async_insert
设置将其打开。 - 用户定义函数 (UDF) 允许您使用所需的任何额外功能扩展 ClickHouse!您可以将 UDF 定义为 lambda 表达式,或者调用任何编程语言的外部脚本。后者使其对于您拥有的任何 ML/AI/NLP 用例特别有用。请查看此处的教程。
- 新数据类型:Map、Bool、UInt128 使将您的所有数据摄取到 ClickHouse 中变得更加容易。Nested 数据类型现在支持任意级别的嵌套。
- 现在支持位置参数!对于熟悉其他数据库的用户来说,这是一个小而有用的功能,您可以使用
enable_positional_arguments
设置将其打开。
有关去年我们在您最喜欢的数据库中添加的更多信息,请在我们的 博客 上了解最新信息,在我们的 YouTube 频道上观看我们的版本发布网络研讨会的录像,或者通过查看 更新日志 来深入了解详细信息。
即将发布的版本 v22.2
我们的下一个月度版本即将发布!我们预计将添加文本分类功能和灵活的内存限制。与往常一样,我们将举办版本发布网络研讨会,您将有机会现场提问并获得解答。
时间:太平洋标准时间上午 9 点 / 格林威治标准时间下午 5:00,2 月 17 日
如何加入:将邀请添加到您的日历,或在 2 月 17 日点击此链接。
本月查询:全文搜索表
有没有想过如何像搜索引擎一样一次搜索表的所有列?您可以使用 ClickHouse 来做到这一点!有几种选择,它们使用了 ClickHouse 中您可能(尚未)知道的一些巧妙功能。
选项 1
SELECT * FROM hackernews WHERE formatRow('TSV', *) ILIKE '%i love clickhouse%'
此查询使用 formatRow 函数将所有列连接成一个长的制表符分隔的字符串,并使用 ILIKE
在其中进行搜索。
选项 2
SELECT * FROM hackernews WHERE concat(* APPLY x -> concat(toString(x), '<<>>')) ILIKE '%i love clickhouse%'
在此查询中,我们也连接了所有列,但我们没有使用制表符作为分隔符,而是可以自己指定分隔符,在本例中为 <<>>
。APPLY 是一个很棒的修饰符,它允许我们在任何表达式(在本例中是所有列,但我们可以使用方便命名的 COLUMNS 表达式 指定列的子集)上调用函数(在本例中是 高阶 lambda 表达式)。
选项 3
SELECT * FROM hackernews WHERE (arrayExists(x -> positionCaseInsensitiveUTF8(x, 'i love clickhouse') > 0, array(* APPLY x -> toString(x))))
您是否注意到使用前两个选项时可能发生的情况?由于所有列都只是连接成一个大的字符串,因此如果(有意或无意地)搜索列分隔符,则可能会跨列搜索。此处的最后一个查询通过将所有列收集到一个数组中并使用 arrayExists 函数来检查是否有一个元素包含我们正在搜索的短语,从而消除了问题。
当在 Hacker News 数据集 上运行这些查询中的任何一个时,它们都会找到评论“I love clickhouse: it’s simple yet flexible enough and free software.”(我喜欢 ClickHouse:它简单但足够灵活,而且是自由软件。)哎呀,我们也喜欢 ClickHouse!
您最近是否编写了一个有趣的查询,您认为其他人可以从中学习?在 Twitter 上告诉我们,我们很乐意收到您的来信!
阅读角
我们在年初阅读的内容
- ClickHouse 22.1 版本的新功能 – 我们的 v22.1 版本发布博文,宣布了自动模式推断、多副本并行查询处理、ClickHouse 的新诊断工具等等!
- Admixer 使用 ClickHouse 每天聚合超过 10 亿唯一用户 – 广告技术平台 Admixer 从 MSSQL 和 Azure 表存储迁移到 ClickHouse,并且每秒摄取超过 100 万行。
- 将您的报告查询从通用数据库 MongoDB 迁移到数据仓库 ClickHouse 的性能概述 – MongoDB 与 ClickHouse 的分析查询基准测试。剧透警告:ClickHouse 更快!
- 大规模历史流量分析:将 ClickHouse 与 ntopng 结合使用 – 使用 ClickHouse 进行高速流收集和存储。
- ClickHouse, Inc. 如何构建一流的工程文化 – 从我们自己的 Yury Izrailevsky 了解一些关于我们如何在 ClickHouse 构建我们的工程团队的信息。(剧透:这不是每天告诉人们该做什么。)
新的 ClickHouse 采用者:ntop、Superwall、Muse 和 NLMK。也把自己添加进去吧!
感谢您的阅读。下个月再见!
ClickHouse 团队
照片由 Fabien Maurin 在 Unsplash 上拍摄