博客 / 社区

2025 年 1 月新闻通讯

author avatar
ClickHouse 团队
2025 年 1 月 16 日 - 7 分钟阅读

欢迎阅读 2025 年首期 ClickHouse 新闻通讯。本月,我们在 24.12 版本中推出了 Apache Iceberg REST 目录和模式演变。我们将学习如何构建产品分析解决方案,并使用 ClickHouse 实施 Medallion 架构。我们还有来自 All Things Open 大会的视频!

 

本期内容

 

本月聚焦的社区成员是 Jason Anderson,社区平台 Skool 的数据主管。

featured-member-202501.png

Jason Anderson 是一位经验丰富的数据和技术专业人士,在领导团队和开发数据驱动型解决方案方面拥有丰富的经验。他曾担任 Mythical Games 的数据主管和 Comp Three 的合伙人,专注于机器学习、分析和云架构。他的职业生涯还包括在 IBM 和 PolySat 担任职务,为云服务和卫星软件开发做出了贡献。

Jason 最近在 ClickHouse 洛杉矶聚会上介绍了他在 Skool 的工作。Jason 解释了他们如何从 Postgres 迁移到 ClickHouse,以每天处理 1 亿多行数据,同时提供闪电般快速的查询。还有一篇 博客文章更详细地解释了 Skool 如何使用 ClickHouse

在 LinkedIn 上关注 Jason


近期活动

全球活动

免费培训

欧洲、中东和非洲地区 (EMEA) 活动

亚太地区 (APAC) 活动

 

24.12 版本

release-24.12.png

2024 年的最终版本引入了对 Iceberg REST 目录和模式演变的支持。Daniel Weeks 是 Apache Iceberg 的共同创建者,他在 24.12 社区电话会议中作为嘉宾出席,请务必查看录音

此外,还有 Enum 可用性改进、按列反向排序表的实验性功能、JSON 子列作为表的主键、自动 JOIN 重新排序、JOIN 表达式优化等等!

阅读版本发布帖子

 

使用 ClickHouse 构建产品分析解决方案

building-product-analytics-solution.png

产品分析涉及收集、分析和解释有关用户如何与产品交互的数据。

Chloé Carasso 领导 ClickHouse 的产品分析,并撰写了一篇博客文章,解释了我们如何构建内部产品分析平台。

Chloe 解释了我们为什么决定自己构建而不是购买现成的解决方案,并分享了一些关于设计和运营基于 ClickHouse 的分析解决方案的想法(如果您对此路径感兴趣)。她还分享了她运行的常见查询,包括队列分析、用户路径以及衡量留存率/流失率。

阅读博客文章

 

优化分区表的批量插入

optimizing-bulk-inserts.png

Jesse Grodman 是 Triple Whale 的软件工程师,他分享了一些技巧,用于将数据快速加载到高度分区的 ClickHouse 表中。

我们开始直接从 S3 文件将数据写入表中,但这会导致许多小的 part,从查询的角度来看,这并不理想,并可能导致 过多 part 错误。他探索了解决此问题的各种方法,包括在摄取查询中按分区键对数据进行排序,但这会导致内存不足错误。

Jesse 发现,在将数据写入 ClickHouse 之前按分区键对数据进行排序效果更好。他还尝试首先将数据加载到未分区的表中,然后再填充已分区的表,在 ClickHouse 中进行排序。

阅读博客文章

 

从零到规模:Langfuse 的基础设施演变

from-zero-to-scale.png

Langfuse 是一个开源 LLM 可观测性平台,参与了 Y Combinator 2023 年冬季批次。他们产品的初始版本是用 Next.js、Vercel 和 Postgres 编写的。这使他们能够快速发布版本,但在尝试扩展系统时遇到了问题。

在博客文章中,他们解释了他们解决这些问题的历程,其中包括广泛的基础设施重新设计。引入了 Redis 队列来处理峰值摄取流量,并在 ClickHouse ReplacingMergeTree 表的帮助下加快了分析查询速度。

阅读博客文章

 

使用 ClickHouse 构建 Medallion 架构

building-medallion-ch.png

Medallion 架构是一种数据设计模式,可在逻辑上组织湖仓一体架构中的数据。它的目标是随着数据流经架构的每一层(从 Bronze ⇒ Silver ⇒ Gold 层表),逐步改进数据的结构和质量。

ClickHouse 产品营销工程 (PME) 团队很好奇该架构是否可以应用于像 ClickHouse 这样的实时数据仓库,并撰写了一篇博客文章来描述他们的经验。

阅读博客文章

 

为 Bluesky 数据构建 Medallion 架构

building-medallion-bluesky.png

在 Medallion 架构的介绍性帖子之后,ClickHouse PME 团队将此设计模式应用于来自 BlueSky 社交网络的数据。

这是一个用于此实验的完美数据集,因为许多记录都包含格式错误或不正确的时间戳。该数据集还包含频繁的重复项。

该博客介绍了解决这些挑战的工作流程,将此数据集组织到 Medallion 架构的三个不同层级:Bronze、Silver 和 Gold。该团队还大量使用了最近发布的 JSON 类型

阅读博客文章

 

快速阅读

 

视频角

 

本月最佳帖子

我们本月最喜欢的帖子是 Dmytro Shevchenko 的帖子

post-of-month-202501.png

阅读帖子

分享此帖子

订阅我们的新闻通讯

随时了解功能发布、产品路线图、支持和云产品!
正在加载表单...
关注我们
X imageSlack imageGitHub image
Telegram imageMeetup imageRss image
©2025ClickHouse, Inc. 总部位于加利福尼亚州湾区和荷兰阿姆斯特丹。