博客 / 产品

ClickHouse Newsletter 2022 年 2 月刊:您知道如何搜索表吗?

author avatar
Christoph Wurm
2 月 10 日, 2022 - 分钟阅读

新年快乐!(农历)新年快乐!2021 年对我们来说是意义重大的一年;我们成立了一家公司,并为您带来了 12 个新版本。现在我们都从假期回来了,想了解最新进展吗?

我们最喜欢的功能在下面列出,以及本月网络研讨会的邀请、本月的查询技巧等等。欢迎阅读本月的 ClickHouse 精品内容。

ClickHouse 2021 年的 5 大新功能

在 12 个月度版本中,ClickHouse 团队和我们由杰出贡献者组成的社区发布了数百个功能和改进。以下是我们最喜欢的功能

  1. ClickHouse Keeper,我们 Apache ZooKeeper 的替代方案,功能已完善!现在,ClickHouse 是一个“真正”的单二进制文件,您无需任何其他东西即可开始使用。Keeper 与原始 ZooKeeper 完全协议兼容 — 因此您也可以将其用于您的 Hadoop 或 Kafka 部署。
  2. 异步插入 模式现在可以对您的 ClickHouse 集群进行许多小的 INSERT 操作,而不会遇到可怕的“Too many parts”错误。使用 async_insert 设置将其打开。
  3. 用户定义函数 (UDF) 允许您使用所需的任何额外功能扩展 ClickHouse!您可以将 UDF 定义为 lambda 表达式,或者调用任何编程语言的外部脚本。后者使其对于您拥有的任何 ML/AI/NLP 用例特别有用。请查看此处的教程。
  4. 新数据类型:MapBoolUInt128 使将您的所有数据摄取到 ClickHouse 中变得更加容易。Nested 数据类型现在支持任意级别的嵌套。
  5. 现在支持位置参数!对于熟悉其他数据库的用户来说,这是一个小而有用的功能,您可以使用 ​​enable_positional_arguments 设置将其打开。

有关去年我们在您最喜欢的数据库中添加的更多信息,请在我们的 博客 上了解最新信息,在我们的 YouTube 频道上观看我们的版本发布网络研讨会的录像,或者通过查看 更新日志 来深入了解详细信息。

即将发布的版本 v22.2

我们的下一个月度版本即将发布!我们预计将添加文本分类功能和灵活的内存限制。与往常一样,我们将举办版本发布网络研讨会,您将有机会现场提问并获得解答。

时间:太平洋标准时间上午 9 点 / 格林威治标准时间下午 5:00,2 月 17 日

如何加入:将邀请添加到您的日历,或在 2 月 17 日点击此链接

本月查询:全文搜索表

有没有想过如何像搜索引擎一样一次搜索表的所有列?您可以使用 ClickHouse 来做到这一点!有几种选择,它们使用了 ClickHouse 中您可能(尚未)知道的一些巧妙功能。

选项 1

SELECT * FROM hackernews WHERE formatRow('TSV', *) ILIKE '%i love clickhouse%'

此查询使用 formatRow 函数将所有列连接成一个长的制表符分隔的字符串,并使用 ILIKE 在其中进行搜索。

选项 2

SELECT * FROM hackernews WHERE concat(* APPLY x -> concat(toString(x), '<<>>')) ILIKE '%i love clickhouse%'

在此查询中,我们也连接了所有列,但我们没有使用制表符作为分隔符,而是可以自己指定分隔符,在本例中为 <<>>APPLY 是一个很棒的修饰符,它允许我们在任何表达式(在本例中是所有列,但我们可以使用方便命名的 COLUMNS 表达式 指定列的子集)上调用函数(在本例中是 高阶 lambda 表达式)。

选项 3

SELECT * FROM hackernews WHERE (arrayExists(x -> positionCaseInsensitiveUTF8(x, 'i love clickhouse') > 0, array(* APPLY x -> toString(x))))

您是否注意到使用前两个选项时可能发生的情况?由于所有列都只是连接成一个大的字符串,因此如果(有意或无意地)搜索列分隔符,则可能会跨列搜索。此处的最后一个查询通过将所有列收集到一个数组中并使用 arrayExists 函数来检查是否有一个元素包含我们正在搜索的短语,从而消除了问题。

当在 Hacker News 数据集 上运行这些查询中的任何一个时,它们都会找到评论“I love clickhouse: it’s simple yet flexible enough and free software.”(我喜欢 ClickHouse:它简单但足够灵活,而且是自由软件。)哎呀,我们也喜欢 ClickHouse!

您最近是否编写了一个有趣的查询,您认为其他人可以从中学习?在 Twitter 上告诉我们,我们很乐意收到您的来信!

阅读角

我们在年初阅读的内容

  1. ClickHouse 22.1 版本的新功能 – 我们的 v22.1 版本发布博文,宣布了自动模式推断、多副本并行查询处理、ClickHouse 的新诊断工具等等!
  2. Admixer 使用 ClickHouse 每天聚合超过 10 亿唯一用户 – 广告技术平台 Admixer 从 MSSQL 和 Azure 表存储迁移到 ClickHouse,并且每秒摄取超过 100 万行。
  3. 将您的报告查询从通用数据库 MongoDB 迁移到数据仓库 ClickHouse 的性能概述 – MongoDB 与 ClickHouse 的分析查询基准测试。剧透警告:ClickHouse 更快!
  4. ​​大规模历史流量分析:将 ClickHouse 与 ntopng 结合使用 – 使用 ClickHouse 进行高速流收集和存储。
  5. ClickHouse, Inc. 如何构建一流的工程文化 – 从我们自己的 Yury Izrailevsky 了解一些关于我们如何在 ClickHouse 构建我们的工程团队的信息。(剧透:这不是每天告诉人们该做什么。)

新的 ClickHouse 采用者:ntop、Superwall、Muse 和 NLMK。也把自己添加进去吧!

感谢您的阅读。下个月再见!

ClickHouse 团队

照片由 Fabien MaurinUnsplash 上拍摄

分享这篇文章

订阅我们的新闻通讯

随时了解功能发布、产品路线图、支持和云产品!
正在加载表单...
关注我们
X imageSlack imageGitHub image
Telegram imageMeetup imageRss image
©2025ClickHouse, Inc. 总部位于加利福尼亚州湾区和荷兰阿姆斯特丹。