欢迎阅读 10 月份 ClickHouse 新闻通讯,本期通讯将总结上个月实时数据仓库领域的动态。
本月,我们将分享初次用户对 ClickHouse 的印象和挑战、可刷新物化视图的 APPEND 子句、煎饼 SQL 模式等等!
本期内容
- 社区成员聚焦
- 即将举行的活动
- ClickHouse 用于嵌入式分析:第一印象和意外挑战
- 使用 ClickHouse 进行高容量数据管道处理和异步更新
- 24.9 版本发布
- 煎饼 SQL 模式
- ClickHouse Cloud 实时更新:2024 年 9 月
- 快速阅读
- 本月最佳文章
社区成员聚焦
本月聚焦的社区成员是 Duc-Canh Le,Ahrefs 的软件工程师。
Duc-Canh 在 Ahrefs 负责数据基础设施,并负责开发和运营超过 600 台机器上的 ClickHouse,这些机器存储着 100 PB 的压缩数据。
他是 ClickHouse 代码库的 регулярный 贡献者,在本日历年已贡献了 28 次。 这些贡献包括支持在连接表上使用 OPTIMIZE 以减少其内存占用,修复了在 `IN` 函数的左侧使用空元组时的错误,以及修复了在不使用自适应粒度的表上运行时 FINAL 子句的问题。
即将举行的活动
全球活动
- 24.10 版本发布电话会议 - 10 月 31 日
- ClickHouse Cloud 实时更新 - 11 月 12 日
免费培训
- BigQuery 到 ClickHouse Workshop - 10 月 23 日
- ClickHouse 查询优化 Workshop - 10 月 30 日
- ClickHouse 基础知识 - 11 月 6 日
- 从 Postgres 迁移到 ClickHouse Workshop
美洲活动
- 在圣塔莫尼卡与 ClickHouse 共饮咖啡 - 10 月 25 日
- KubeCon 北美 - 11 月 12-15 日
- Microsoft Ignite - 芝加哥 - 11 月 19-22 日
欧洲、中东和非洲地区 (EMEA) 活动
- 马德里 Meetup - 10 月 22 日
- 与 ClickHouse 共饮咖啡 - 10 月 23 日
- 奥斯陆 Meetup - 10 月 31 日
- 巴塞罗那 Meetup - 11 月 12 日
- 根特 Meetup - 11 月 19 日
- 迪拜 Meetup - 11 月 21 日
- 巴黎 Meetup - 11 月 26 日
亚太地区活动
- Data & AI Summit VIC - 10 月 22 日
ClickHouse 用于嵌入式分析:第一印象和意外挑战
Jorin Vogel 最近开始将 ClickHouse 用于嵌入式分析项目,并分享了他的初步想法。他还描述了他希望在开始之前就了解的事情,包括物化视图的工作原理以及如何处理重复数据。如果您刚开始 ClickHouse 之旅,这是一篇值得阅读的文章。
使用 ClickHouse 进行高容量数据管道处理和异步更新
Marais Kruger 在 Evinced(一家专注于企业客户可访问性合规性的公司)工作,并撰写了一篇关于构建基于 ClickHouse 的数据管道的经验的博文。
Marais 解释了他们如何设计管道来处理大量传入数据,同时处理对该数据的非频繁更新。他还描述了他们如何使用 ClickHouse 的重复块检测和用于确保与依赖物化视图类似行为的设置,使写入操作具有幂等性。
对于 ClickHouse 爱好者或任何对如何大规模设计数据管道感到好奇的人来说,这是一篇值得阅读的文章。
24.9 版本发布
24.9 版本引入了用于处理可刷新物化视图的 APPEND 子句。配置后,物化视图的查询将结果追加到目标表的末尾,而不是替换所有内容。如果您想捕获来自其他表的数据快照或从外部 API 轮询数据并将其存储在 ClickHouse 中,这将非常有用。
此版本还在使用 url 表函数时提供了响应标头、Variant 数据类型的自动推断以及用于查询新的 JSON 数据类型的聚合函数。
煎饼 SQL 模式
Jacek Migdal 遇到了一个棘手的问题:Quesma 仪表板之一发送多达 10 个查询来填充单个面板,给 ClickHouse 数据库带来了压力。
Jacek 一直在尝试解决这个问题,在给他的蹒跚学步的孩子喂煎饼时,他灵光一闪:仪表板查询是否可以重新设计得更像煎饼?
他们没有生成多个查询,而是将所有内容都放入一个查询中。聚合将像煎饼一样堆叠在一起,其中每一层都是一个带有限制的分组,并且在层之间,他们有指标聚合——我们的煎饼“馅料”。
它奏效了,他们的性能提高了 50 倍。
ClickHouse Cloud 实时更新:2024 年 9 月
我们有幸邀请到来自 Redpanda 的特邀嘉宾 Dunith Danushka,参加我们最新的 ClickHouse Cloud 更新电话会议。Dunith 和 Mark Needham 展示了如何使用 Redpanda Serverless、ClickHouse Cloud 和 OpenAI 的组合来驱动体育评论 Copilot 应用程序。
我们还收到了关于 ClickHouse Cloud 中一些即将推出的功能的更新,包括自带云、计算-计算分离和 JSON 数据类型。
快速阅读
- Juan S. Carrillo 编写了一个用户定义函数 (UDF),以简化软件版本的排序。
- Rafal Kwasny 探索了数据存储的各种选项,并专注于使用 ClickHouse 进行高性能金融数据分析。
- Alexey Milovidov 在最近的旧金山聚会上分享了他 2024 年最喜欢的 ClickHouse 功能。
- Sai Srirampur 和 Bryan Clark 撰写了一篇博文,解释了如何将 ClickHouse 和 Neon 结合使用,通过 PeerDB 同步数据,以实现事务数据的实时分析。
本月最佳文章
本月我们最喜欢的文章是 Carl Lindesvärd 撰写的关于 ClickHouse 压缩率的文章,这是一个有点被低估的功能!