欢迎阅读六月份 ClickHouse Newsletter,本期将总结过去一个月实时数据仓库领域的动态。
本月,我们将介绍 24.5 版本中的动态数据类型,HyperDX 为何选择 ClickHouse 而不是 Elasticsearch 来存储可观测性数据,以及如何使用 ClickHouse 大规模统计唯一用户数。
本期内容
- 社区精选成员
- 近期活动
- 24.5 版本发布
- HyperDX 为何选择 ClickHouse 而不是 Elasticsearch 来存储可观测性数据
- ClickHouse 中的 Python 用户自定义函数
- Tweeq 数据平台:历程与经验教训:ClickHouse、dbt、Dagster 和 Superset
- 使用 ClickHouse 大规模统计唯一用户数
- ClickHouse 作为 ETL/ELT 流程的一部分
- 本月精选文章
社区精选成员:Michael Driscoll
本月社区精选成员是 Rill Data 的联合创始人兼 CEO Michael Driscoll。
Michael 在科技行业工作了二十年,担任技术专家、企业家和投资人。多年来,他创立了多家公司,包括为数字广告公司提供实时分析平台的 Metamarkets,该公司于 2017 年被 Snap, Inc. 收购。
他最新的公司是 Rill,一家为运营智能提供云服务的公司。今年早些时候,Michael 在 FOSDEM 上遇到了 ClickHouse 的联合创始人兼 CTO Alexey,Rill 和 ClickHouse 的世界由此碰撞。
Alexey 建议在 ClickHouse 驱动的 Wikipedia 流量数据集上运行 Rill。Michael 和他的团队在几天内完成了这项工作,并且 Michael 参加了 24.2 社区电话会议,分享了 Rill 的 ClickHouse 连接器。Michael 还参加了两周前在旧金山举办的 ClickHouse 聚会并进行了演讲。
近期活动
- ClickHouse 基础知识 - 6 月 26 日和 27 日
- AWS 峰会 D.C. - 6 月 26 日
- 阿姆斯特丹聚会 - 6 月 27 日
- ClickHouse 24.6 版本发布电话会议 - 6 月 27 日
- 比利时聚会 - 7 月 4 日
- ClickHouse Cloud 实时更新 - 7 月 9 日
- 巴黎聚会 - 7 月 9 日
- 纽约聚会 - 7 月 9 日
- AWS 峰会纽约欢乐时光 - 7 月 10 日
- 波士顿聚会 - 7 月 11 日
- 新加坡聚会 - 7 月 11 日
24.5 版本发布
随着 Dynamic 类型的引入,为 ClickHouse 添加半结构化数据类型的旅程仍在继续。此版本还在 CROSS JOIN 方面实现了性能改进,并增加了读取 S3 上的归档文件的功能。
HyperDX 为何选择 ClickHouse 而不是 Elasticsearch 来存储可观测性数据
Michael Shi 在 HyperDX 工作,这是一个基于 OpenTelemetry 和 ClickHouse 构建的开源可观测性平台。在这篇博文中,他解释了他们为何使用 ClickHouse 而不是 Elasticsearch,并指出可观测性已成为一个分析问题,而非搜索问题。他认为 ClickHouse 的列式数据布局和稀疏索引是关键的差异化因素。
ClickHouse 中的 Python 用户自定义函数
Tom Weisner 撰写了一篇关于在 ClickHouse 中使用 Python 用户自定义函数的教程。他从一个简单的反转字符串的函数开始,然后过渡到一个向提供的 DateTime 添加分钟或小时的多参数函数。最后,他介绍了一个借助 numpy 和 scipy 检测时间序列数据中 повышенного 心率活动的函数。
Tweeq 数据平台:历程与经验教训:ClickHouse、dbt、Dagster 和 Superset
Tweeq 是一家金融科技初创公司,从零开始构建高度可扩展且灵活的支付平台。ClickHouse 是数据仓库,Tweeq 使用 Kafka 表引擎来摄取数据。在这篇博文中,Atheer Alabdullatif 解释了他们如何选择 ClickHouse 以及构成数据平台一部分的其他工具。
使用 ClickHouse 大规模统计唯一用户数
Twilio Engage 是一款全渠道客户互动工具,用户可以使用它来定义客户旅程。他们希望向用户展示每个旅程的总体统计数据,并提供更准确的步骤级别统计数据。这对于所有用户都运行良好,除了那些存储海量数据的用户。在这篇博文中,他们解释了如何通过使用语义分片和 distributed_group_by_no_merge
设置,以及减小数据库中分组键的大小来解决这个问题。
ClickHouse 作为 ETL/ELT 流程的一部分
Nikolai Potapov 讨论了 ClickHouse 在数据管道中转换数据的不同方式。我们了解了参数化视图、物化视图和各种表引擎。
本月精选文章
本月我们最喜欢的文章来自 Pascal Senn,他正在愉快地使用 ClickHouse。