欢迎来到 6 月份的 ClickHouse 通讯,本期将回顾过去一个月实时数据仓库领域发生的事情。
本月,我们将介绍 24.5 版本中的动态数据类型、HyperDX 为什么选择 ClickHouse 而不是 Elasticsearch 来存储可观察性数据,以及如何在规模化情况下使用 ClickHouse 统计唯一用户。
本期内容
- 社区成员推荐
- 即将举办的活动
- 24.5 版本
- 为什么 HyperDX 选择 Clickhouse 而不是 Elasticsearch 来存储可观察性数据
- ClickHouse 中的 Python 用户定义函数
- Tweeq 数据平台:旅程和经验教训:Clickhouse、dbt、Dagster 和 Superset
- 使用 ClickHouse 在规模化情况下统计唯一用户
- ClickHouse 作为 ETL/ELT 过程的一部分
- 本月推荐文章
社区成员推荐:Michael Driscoll
本月的社区成员推荐是 Rill Data 的联合创始人兼首席执行官 Michael Driscoll。
Michael 在科技行业工作了二十年,担任技术人员、企业家和投资者。多年来,他创办了几家公司,包括 Metamarkets,这是一家面向数字广告公司的实时分析平台,该公司于 2017 年被 Snap, Inc. 收购。
他最近的公司是 Rill,这是一家面向运营智能的云服务。当 Michael 在今年早些时候的 FOSDEM 上遇到 ClickHouse 的联合创始人兼首席技术官 Alexey 时,Rill 和 ClickHouse 的世界碰撞了。
Alexey 建议在基于 ClickHouse 的维基百科流量数据集之上运行 Rill。Michael 和他的团队 在几天内就完成了这项工作,Michael 也加入了 24.2 社区通话,分享了 Rill 的 ClickHouse 连接器。Michael 还 在两周前的 ClickHouse 旧金山聚会上进行了演示。
即将举办的活动
- ClickHouse 基础知识 - 6 月 26 日和 27 日
- AWS 峰会华盛顿特区 - 6 月 26 日
- 阿姆斯特丹聚会 - 6 月 27 日
- ClickHouse 24.6 版本通话 - 6 月 27 日
- 比利时聚会 - 7 月 4 日
- ClickHouse Cloud 直播更新 - 7 月 9 日
- 巴黎聚会 - 7 月 9 日
- 纽约聚会 - 7 月 9 日
- AWS 峰会纽约欢乐时光 - 7 月 10 日
- 波士顿聚会 - 7 月 11 日
- 新加坡聚会 - 7 月 11 日
24.5 版本
将半结构化数据类型添加到 ClickHouse 的旅程继续,引入了动态类型。此版本还对 CROSS JOIN 进行了性能改进,以及对从 S3 读取到存档文件的功能进行了改进。
为什么 HyperDX 选择 Clickhouse 而不是 Elasticsearch 来存储可观察性数据
Michael Shi 在 HyperDX 工作,HyperDX 是一个基于 OpenTelemetry 和 Clickhouse 构建的开源可观察性平台。在这篇博客文章中,他解释了他们为什么使用 ClickHouse 而不是 Elasticsearch,指出可观察性已成为一个分析问题,而不是搜索问题。他将 ClickHouse 的列式数据布局和稀疏索引视为关键差异。
ClickHouse 中的 Python 用户定义函数
Tom Weisner 撰写了一篇关于在 ClickHouse 中使用 Python 用户定义函数的教程。他从一个简单的函数开始,该函数在转到一个多参数函数之前会反转字符串,该函数会将分钟或小时添加到提供的 DateTime。最后,他使用 numpy 和 scipy 的帮助,使用一个函数来检测时间序列数据中的心率升高活动。
Tweeq 数据平台:旅程和经验教训:Clickhouse、dbt、Dagster 和 Superset
Tweeq 是一家金融科技初创公司,正在从头开始构建一个高度可扩展且灵活的支付平台。ClickHouse 是数据仓库,Tweeq 使用 Kafka 表引擎来摄取数据。在这篇博客文章中,Atheer Alabdullatif 解释了他们如何选择 ClickHouse 以及构成数据平台的其他工具。
使用 ClickHouse 在规模化情况下统计唯一用户
Twilio Engage 是一款全渠道客户参与工具,允许用户定义客户的旅程。他们希望向用户展示每个旅程的总体统计信息,并提供更准确的步骤级统计信息。这对所有用户都有效,但存储大量数据的用户除外。在博客文章中,他们解释了他们如何使用语义分片和 `distributed_group_by_no_merge` 设置以及减小数据库中分组键的大小来解决这个问题。
ClickHouse 作为 ETL/ELT 过程的一部分
Nikolai Potapov 讨论了 ClickHouse 在数据管道中转换数据的不同方法。我们了解到参数化视图、物化视图以及各种表引擎。
本月推荐文章
我们本月的最爱文章来自 Pascal Senn,他非常喜欢使用 ClickHouse。