DoubleCloud 即将结束。使用限时免费迁移服务迁移到 ClickHouse。立即联系我们 ->->

博客 / 产品

ClickHouse 2022 年 2 月新闻:您知道如何搜索表格吗?

author avatar
Christoph Wurm
2022 年 2 月 10 日

新年快乐!(农历) 2021 年对我们来说是重要的一年;我们创建了一家公司,并为您带来了 12 个新版本。现在我们都从假期回来,想要赶上进度吗?

我们最喜欢的功能如下,以及对本月网络研讨会的邀请、本月的查询技巧等。欢迎来到您每月一次的 ClickHouse 好礼。

ClickHouse 2021 年五大新功能

在 12 个月度版本中,ClickHouse 团队和我们优秀的贡献者社区发布了数百项功能和改进。这些是我们最喜欢的功能

  1. ClickHouse Keeper,我们对 Apache ZooKeeper 的替代方案,功能已完整!现在 ClickHouse 成为一个“真正”的单一二进制文件,您无需其他任何东西即可开始使用。Keeper 与原始 ZooKeeper 完全协议兼容,因此您也可以将其用于 Hadoop 或 Kafka 部署。
  2. 异步插入 模式现在可以对您的 ClickHouse 集群进行许多小的 INSERT 操作,而不会遇到可怕的“太多部分”错误。使用 async_insert 设置将其打开。
  3. 用户定义函数 (UDF) 允许您使用任何额外功能扩展 ClickHouse!您可以将 UDF 定义为 lambda 表达式,或者调用任何编程语言中的外部脚本。后者使其特别适合您拥有的任何 ML/AI/NLP 用例。查看教程此处
  4. 新数据类型:MapBoolUInt128 使将所有数据导入 ClickHouse 变得更加容易。并且 嵌套 数据类型现在支持任意级别的嵌套。
  5. 位置参数 现在已得到支持!对于熟悉其他数据库的用户来说,这是一个小而有用的功能,您可以使用 ​​enable_positional_arguments 设置将其打开。

有关我们在去年为您的最爱数据库添加的内容的更多信息,请查看我们的 博客,观看我们 YouTube 频道 上的发布网络研讨会的录音,或者通过查看 变更日志 来了解详细信息。

即将发布的 v22.2 版本

我们的下一个月度版本即将发布!我们预计将添加文本分类功能和灵活的内存限制。与往常一样,我们将举办一个发布网络研讨会,您将有机会现场提问并获得答案。

时间:太平洋标准时间上午 9 点/格林威治标准时间下午 5 点,2 月 17 日

加入方式:将 邀请添加到日历,或在 2 月 17 日 点击此链接

本月查询:全文搜索表格

您是否曾经想过如何像使用搜索引擎一样同时搜索表格的所有列?您可以使用 ClickHouse 做到!有几种选择,它们使用 ClickHouse 中一些您可能(尚未)了解的巧妙功能。

选项 1

SELECT * FROM hackernews WHERE formatRow('TSV', *) ILIKE '%i love clickhouse%'

此查询使用 formatRow 函数将所有列连接成一个长的制表符分隔的字符串,并使用 ILIKE 进行搜索。

选项 2

SELECT * FROM hackernews WHERE concat(* APPLY x -> concat(toString(x), '<<>>')) ILIKE '%i love clickhouse%'

在此查询中,我们也连接了所有列,但没有使用制表符作为分隔符,而是可以自己指定分隔符,在本例中为 <>>APPLY 是一种很棒的修饰符,它允许我们在任何表达式(在本例中为所有列,但我们可以使用方便命名的 COLUMNS 表达式 指定列的子集)上调用函数(在本例中为 高阶 lambda 表达式)。

选项 3

SELECT * FROM hackernews WHERE (arrayExists(x -> positionCaseInsensitiveUTF8(x, 'i love clickhouse') > 0, array(* APPLY x -> toString(x))))

您是否注意到使用前两个选项时会发生什么?由于所有列都只是简单地连接成一个大字符串,因此如果有人(故意或意外地)搜索列分隔符,就可以跨列进行搜索。这里最后一个查询通过将所有列收集到一个数组中并使用 arrayExists 函数来检查是否有任何一个元素包含我们要搜索的短语,从而消除了这个问题。

Hacker News 数据集 上运行任何这些查询时,它们都找到评论“我喜欢 ClickHouse:它既简单又足够灵活,而且是免费软件”。哇,我们也喜欢 ClickHouse!

您最近是否编写了有趣的查询,您认为其他人可以从中学习?在 Twitter 上告诉我们,我们很想听听您的想法!

阅读角

我们在年初阅读的内容

  1. ClickHouse 22.1 中的新功能 – 我们的 v22.1 版本博客文章,宣布自动模式推断、在多个副本上进行并行查询处理、ClickHouse 的新诊断工具等等!
  2. Admixer 使用 ClickHouse 每天聚合超过 10 亿个唯一用户 – 广告技术平台 Admixer 从 MSSQL 和 Azure Table Storage 迁移到 ClickHouse,并且每秒可摄取超过 100 万行数据。
  3. 将您的报表查询从 MongoDB 迁移到 ClickHouse – 对 MongoDB 与 ClickHouse 在分析查询方面的基准测试。剧透预警:ClickHouse 更快!
  4. ​​大规模历史流量分析:使用 ClickHouse 和 ntopng – 使用 ClickHouse 进行高速流量收集和存储。
  5. ClickHouse, Inc. 如何打造一流的工程文化 – 从我们自己的 Yury Izrailevsky 那里了解一下我们是如何在 ClickHouse 构建我们的工程团队的。(剧透:这不是每天告诉人们该做什么。)

ClickHouse 新用户: ntop、Superwall、Muse 和 NLMK。加入我们吧!

感谢您的阅读。我们下个月再见!

ClickHouse 团队

图片来自 Fabien MaurinUnsplash

分享此文章

订阅我们的新闻

及时了解功能发布、产品路线图、支持和云服务!
正在加载表单...
关注我们
Twitter imageSlack imageGitHub image
Telegram imageMeetup imageRss image