欢迎阅读 10 月份的 ClickHouse 新闻通讯,本期将总结过去一个月实时数据仓库领域发生的重大事件。
本月,我们将分享 ClickHouse 首次用户的使用体验和遇到的挑战、可刷新物化视图的 APPEND 子句、煎饼 SQL 模式等内容!
本期内容
- 社区成员风采
- 即将举行的活动
- ClickHouse 用于嵌入式分析:初体验和意外挑战
- 使用 ClickHouse 进行海量数据管道处理和异步更新
- 24.9 版本
- 煎饼 SQL 模式
- ClickHouse Cloud 实时更新:2024 年 9 月
- 快速阅读
- 本月最佳文章
社区成员风采
本月社区成员风采展示的是 Ahrefs 的软件工程师 Duc-Canh Le。
Duc-Canh 在 Ahrefs 从事数据基础设施工作,负责在 600 多台机器上开发和运营 ClickHouse,这些机器存储了 100 PB 的压缩数据。
他是 ClickHouse 代码库的定期贡献者,在日历年中贡献了 28 次。其中包括支持在连接表上使用 OPTIMIZE 以减少其内存占用、修复在 `IN` 函数的左侧使用空元组时的错误,以及在不使用自适应粒度的表上运行 FINAL 子句时的错误修复。
即将举行的活动
全球活动
- 24.10 版本发布电话会议 - 10 月 31 日
- ClickHouse Cloud 实时更新 - 11 月 12 日
免费培训
- 从 BigQuery 迁移到 ClickHouse 工作坊 - 10 月 23 日
- 使用 ClickHouse 进行查询优化工作坊 - 10 月 30 日
- ClickHouse 基础知识 - 11 月 6 日
- 从 Postgres 迁移到 ClickHouse 工作坊
美洲活动
- 圣莫妮卡 ClickHouse 咖啡会 - 10 月 25 日
- 北美 KubeCon 大会 - 11 月 12-15 日
- 芝加哥微软 Ignite 大会 - 11 月 19-22 日
欧洲、中东和非洲活动
- 马德里聚会 - 10 月 22 日
- ClickHouse 咖啡会 - 10 月 23 日
- 奥斯陆聚会 - 10 月 31 日
- 巴塞罗那聚会 - 11 月 12 日
- 根特聚会 - 11 月 19 日
- 迪拜聚会 - 11 月 21 日
- 巴黎聚会 - 11 月 26 日
亚太地区活动
- 维多利亚州数据与人工智能峰会 - 10 月 22 日
ClickHouse 用于嵌入式分析:初体验和意外挑战
Jorin Vogel 最近开始在嵌入式分析项目中使用 ClickHouse,并分享了他的初步想法。他还描述了一些他希望在开始之前就知道的事情,包括物化视图的工作原理以及处理重复数据的方法。如果您刚刚开始 ClickHouse 之旅,这篇文章值得一读。
使用 ClickHouse 进行海量数据管道处理和异步更新
Marais Kruger 在 Evinced 工作(一家专注于企业客户可访问性合规性的公司),并撰写了一篇关于构建基于 ClickHouse 的数据管道的经验博客文章。
Marais 解释了他们如何设计管道来处理大量传入数据,同时处理对这些数据的非常规更新。他还描述了他们如何使用 ClickHouse 的重复块检测和一个用于确保相关物化视图具有类似行为的设置来使写入幂等。
这篇文章非常适合 ClickHouse 爱好者或任何对如何设计大规模数据管道感兴趣的人。
24.9 版本
24.9 版本引入了用于处理可刷新物化视图的 APPEND 子句。配置后,物化视图的查询将结果追加到目标表的末尾,而不是替换所有内容。如果您想捕获来自其他表的快照或轮询来自外部 API 的数据并将其存储在 ClickHouse 中,这将非常有用。
此版本还使使用 url 表函数时可访问响应头、自动推断 Variant 数据类型,以及聚合函数以查询新的 JSON 数据类型。
煎饼 SQL 模式
Jacek Migdal 遇到一个棘手的问题:Quesma 仪表板之一发送多达 10 个查询来填充单个面板,这给 ClickHouse 数据库带来了压力。
Jacek 试图解决这个问题,并在喂养他蹒跚学步的孩子吃煎饼时灵光一现:仪表板查询是否可以重新设计成更像煎饼的样子?
他们没有生成多个查询,而是将所有内容都放在一个查询中。聚合将彼此堆叠,就像煎饼一样,其中每一层都是一个带有限制的组合,层与层之间有指标聚合——我们的煎饼“馅料”。
它奏效了,他们的性能提高了 50 倍。
ClickHouse Cloud 实时更新:2024 年 9 月
我们最近的 ClickHouse Cloud 更新电话会议邀请到了一位特邀嘉宾,来自 Redpanda 的 Dunith Danushka。Dunith 和 Mark Needham 展示了如何结合使用 Redpanda Serverless、ClickHouse Cloud 和 OpenAI 来为体育解说 Copilot 应用程序提供支持。
我们还更新了一些 ClickHouse Cloud 中即将推出的功能,包括自带云 (Bring Your Own Cloud)、计算-计算分离 (Compute-Compute separation) 和 JSON 数据类型。
快速阅读
- Juan S. Carrillo 编写了一个用户自定义函数 (UDF),以便更轻松地对软件版本进行排序。
- Rafal Kwasny 探讨了各种数据存储选项,并重点关注了 使用 ClickHouse 进行高性能金融数据分析。
- Alexey Milovidov 在最近旧金山的一次聚会上 分享了他 2024 年最喜欢的 ClickHouse 功能。
- Sai Srirampur 和 Bryan Clark 撰写了一篇博文,解释了如何 结合使用 ClickHouse 和 Neon 对事务数据进行实时分析,使用 PeerDB 同步数据。
本月最佳文章
我们本月最喜欢的文章是 Carl Lindesvärd 关于 ClickHouse 压缩率的文章,这是一个有点被低估的功能!