欢迎阅读 2025 年首期 ClickHouse 新闻通讯。本月,我们在 24.12 版本中推出了 Apache Iceberg REST 目录和模式演变。我们将学习如何构建产品分析解决方案,并使用 ClickHouse 实施 Medallion 架构。我们还有来自 All Things Open 大会的视频!
本期内容
- 社区成员聚焦
- 近期活动
- 24.12 版本
- 使用 ClickHouse 构建产品分析解决方案
- 优化分区表的批量插入
- 从零到规模:Langfuse 的基础设施演变
- 使用 ClickHouse 构建 Medallion 架构
- 为 Bluesky 数据构建 Medallion 架构
- 快速阅读
- 视频角
- 本月最佳帖子
社区成员聚焦
本月聚焦的社区成员是 Jason Anderson,社区平台 Skool 的数据主管。
Jason Anderson 是一位经验丰富的数据和技术专业人士,在领导团队和开发数据驱动型解决方案方面拥有丰富的经验。他曾担任 Mythical Games 的数据主管和 Comp Three 的合伙人,专注于机器学习、分析和云架构。他的职业生涯还包括在 IBM 和 PolySat 担任职务,为云服务和卫星软件开发做出了贡献。
Jason 最近在 ClickHouse 洛杉矶聚会上介绍了他在 Skool 的工作。Jason 解释了他们如何从 Postgres 迁移到 ClickHouse,以每天处理 1 亿多行数据,同时提供闪电般快速的查询。还有一篇 博客文章更详细地解释了 Skool 如何使用 ClickHouse。
近期活动
全球活动
- 25.1 版本发布会 - 1 月 28 日
免费培训
- ClickHouse 查询优化研讨会 - 1 月 22 日
- 使用 ClickHouse 进行可观测性 - 1 月 29 日
- ClickHouse 开发者线下培训 - 英国伦敦 - 2 月 4-5 日
- ClickHouse 线下培训 - 2 月 10 日
- ClickHouse 查询优化研讨会(APJ 友好时间) - 2 月 12 日
欧洲、中东和非洲地区 (EMEA) 活动
亚太地区 (APAC) 活动
- 阿里云开发者峰会雅加达站 - 1 月 21 日
- 东京聚会 - 1 月 23 日
- 孟买聚会 - 2 月 1 日
- 班加罗尔聚会 - 2 月 8 日
- 开发者峰会东京站 - 2 月 13-14 日
24.12 版本
2024 年的最终版本引入了对 Iceberg REST 目录和模式演变的支持。Daniel Weeks 是 Apache Iceberg 的共同创建者,他在 24.12 社区电话会议中作为嘉宾出席,请务必查看录音。
此外,还有 Enum 可用性改进、按列反向排序表的实验性功能、JSON 子列作为表的主键、自动 JOIN 重新排序、JOIN 表达式优化等等!
使用 ClickHouse 构建产品分析解决方案
产品分析涉及收集、分析和解释有关用户如何与产品交互的数据。
Chloé Carasso 领导 ClickHouse 的产品分析,并撰写了一篇博客文章,解释了我们如何构建内部产品分析平台。
Chloe 解释了我们为什么决定自己构建而不是购买现成的解决方案,并分享了一些关于设计和运营基于 ClickHouse 的分析解决方案的想法(如果您对此路径感兴趣)。她还分享了她运行的常见查询,包括队列分析、用户路径以及衡量留存率/流失率。
优化分区表的批量插入
Jesse Grodman 是 Triple Whale 的软件工程师,他分享了一些技巧,用于将数据快速加载到高度分区的 ClickHouse 表中。
我们开始直接从 S3 文件将数据写入表中,但这会导致许多小的 part,从查询的角度来看,这并不理想,并可能导致 过多 part 错误。他探索了解决此问题的各种方法,包括在摄取查询中按分区键对数据进行排序,但这会导致内存不足错误。
Jesse 发现,在将数据写入 ClickHouse 之前按分区键对数据进行排序效果更好。他还尝试首先将数据加载到未分区的表中,然后再填充已分区的表,在 ClickHouse 中进行排序。
从零到规模:Langfuse 的基础设施演变
Langfuse 是一个开源 LLM 可观测性平台,参与了 Y Combinator 2023 年冬季批次。他们产品的初始版本是用 Next.js、Vercel 和 Postgres 编写的。这使他们能够快速发布版本,但在尝试扩展系统时遇到了问题。
在博客文章中,他们解释了他们解决这些问题的历程,其中包括广泛的基础设施重新设计。引入了 Redis 队列来处理峰值摄取流量,并在 ClickHouse ReplacingMergeTree 表的帮助下加快了分析查询速度。
使用 ClickHouse 构建 Medallion 架构
Medallion 架构是一种数据设计模式,可在逻辑上组织湖仓一体架构中的数据。它的目标是随着数据流经架构的每一层(从 Bronze ⇒ Silver ⇒ Gold 层表),逐步改进数据的结构和质量。
ClickHouse 产品营销工程 (PME) 团队很好奇该架构是否可以应用于像 ClickHouse 这样的实时数据仓库,并撰写了一篇博客文章来描述他们的经验。
为 Bluesky 数据构建 Medallion 架构
在 Medallion 架构的介绍性帖子之后,ClickHouse PME 团队将此设计模式应用于来自 BlueSky 社交网络的数据。
这是一个用于此实验的完美数据集,因为许多记录都包含格式错误或不正确的时间戳。该数据集还包含频繁的重复项。
该博客介绍了解决这些挑战的工作流程,将此数据集组织到 Medallion 架构的三个不同层级:Bronze、Silver 和 Gold。该团队还大量使用了最近发布的 JSON 类型。
快速阅读
- Hellmar Becker 最近加入了 ClickHouse,并且一直在对其进行测试。在他的第一篇博客文章中,他探讨了数组处理函数,在第二篇博客文章中,我们学习了如何在 ClickHouse 中进行线性代数。
- Hardik Singh Behl 探讨了如何将 ClickHouse 集成到 Spring Boot 应用程序中。他首先配置应用程序并建立数据库连接,然后再执行一些 CRUD 操作。
- Andrei Tserakhau 展示了如何使用 Transfer(一种开源云原生摄取引擎)将数据从 MySQL 传输到 ClickHouse。
- Shivji kumar Jha 探讨了Postgres 和 ClickHouse 如何协同工作,作为统一的数据管理解决方案,在事务可靠性和高速分析之间取得平衡。
视频角
- 我们在 All Things Open 2024 大会上有两位 ClickHouse 演讲者。Tanya Bragin 探讨了开源技术和数据湖标准如何通过提供单体云数据仓库的替代方案来改变现代数据堆栈。
- Zoe Steinkamp 解释了列式数据库如何通过提供优于传统行式系统的卓越性能来革新数据仓库和分析。Zoe 还演示了如何使用 Apache Arrow、Parquet 和 Pandas 等工具构建高效的分析应用程序,同时降低成本并提高查询性能。/li>
- Mark 解释了 ClickHouse 的各种部署模式,包括 ClickHouse Server、clickhouse-local 和 chDB。
- Avi Press 解释了 Scarf 如何构建一个 ClickHouse 支持的数据管道,每天处理约 25GB 的数据和 5000 万个事件。
本月最佳帖子
我们本月最喜欢的帖子是 Dmytro Shevchenko 的帖子