欢迎阅读 5 月份的 ClickHouse 通讯,我们将回顾过去一个月实时数据仓库领域发生的事件。
本月,我们在 24.4 版本中推出了递归 CTE、ClickHouse 开发人员认证计划、Instacart 的实时欺诈检测等功能!
本期内容
- 社区成员风采
- 即将举行的活动
- 24.4 版本
- 成为 ClickHouse 认证开发人员
- Instacart 的实时欺诈检测
- 使用 ClickHouse 进行 K 均值聚类
- 使用 Fluentbit 和 ClickHouse 简化 Kubernetes 日志记录
- 可观测性的新基石
- 使用 ClickHouse 绘制金融图表
- 本月最佳文章
社区成员风采
本月推荐的社区成员是 Dan Goodman,他是 Tangia 的联合创始人兼首席执行官,Tangia 是一家提供交互式直播流媒体托管服务的公司。
Dan 至少加入 ClickHouse 社区 18 个月了,他经常向工程团队反馈缺少的功能以及如何改进现有功能。
Dan 撰写了一个关于分布式系统的博客,之前他曾在博客中撰写过关于范围分区和构建 Fly.io 调度程序等主题。
几周前,他发表了一篇名为 使用近似嵌入聚类查找趋势 的博客文章。在这篇文章中,他解释了在处理大型数据集时近似技术的重要性,并逐步介绍了如何使用 ClickHouse 实现动态 K 均值++ 算法。
即将举行的活动
- 迪拜聚会 - 5月28日
- 迪拜 AWS 峰会 - 5月29日
- v24.5 社区发布电话会议 - 5月30日
- 旧金山聚会 - 6月4日
- 斯德哥尔摩 AWS 峰会 - 6月4日
- 东京聚会 - 6月5日
- 马德里 AWS 峰会 - 6月5日
- ClickHouse 基础知识 - 6月26日和27日
- 华盛顿特区 AWS 峰会 - 6月26日
- 阿姆斯特丹聚会 - 6月27日
- 巴黎聚会 - 7月9日
- 纽约聚会 - 7月9日
24.4 版本
24.4 版本中最突出的功能是递归 CTE(公共表表达式),我们创建了一个伦敦地铁主题示例来向您展示其工作原理。此版本还改进了 JOIN 性能和 QUALIFY 子句,用于过滤窗口函数的值。
成为 ClickHouse 认证开发人员
Rich Raposa 最近宣布 推出官方 ClickHouse 开发人员认证计划,这是 ClickHouse 直接提供的唯一认证。
此认证计划验证开发人员使用 ClickHouse 构建健壮、高性能数据解决方案的能力。此认证将展示您对 ClickHouse 的掌握程度,并帮助您成为值得信赖的数据库管理和分析专家。
Instacart 的实时欺诈检测
Nick Shieh、Shen Zhu 和 Xiaobing Xia 撰写了一篇博客文章,他们在文章中向我们介绍了 Yoda,这是一个他们在 Instacart 构建的决策平台服务,用于检测欺诈活动并快速采取行动。ClickHouse 被选为该系统的主要实时数据存储,因为它可以实时摄取和查询大量数据。我特别喜欢文章中描述如何从 ClickHouse SQL 查询中导出提供给服务的实时特征的部分。
使用 ClickHouse 进行 K 均值聚类
最近,在帮助一位想要从 ClickHouse 中存储的向量计算质心的用户时,我们意识到相同的解决方案可用于实现 K 均值聚类。他们希望在大规模(可能数十亿个数据点)上执行此操作,同时确保可以严格管理内存。在这篇文章中,我们展示了如何仅使用 SQL 实现 K 均值聚类,并表明它可以扩展到数十亿条记录,同时运行速度比 scikit-learn 中的相同代码快得多。
使用 Fluentbit 和 ClickHouse 简化 Kubernetes 日志记录
日志记录是 ClickHouse 目前热门的用例之一,因此我很高兴看到 Muthukumaran 撰写的这篇博文。Fluentbit 是一款轻量级的日志和指标处理器和转发器,专为容器化环境设计。Muthukumaran 逐步介绍了如何设置一个指标服务器来监控 Kubernetes 中的资源利用率,然后展示了如何配置 Fluentbit 将这些指标发送到 ClickHouse。
可观测性的新基石
本文重点介绍作者称之为可观测性元素周期表中的三个新元素:OpenTelemetry、eBPF 和 ClickHouse。OpenTelemetry 已成为遥测数据的实际标准,eBPF 使无需任何检测即可生成跟踪和指标成为可能,而 ClickHouse 用于摄取和查询所有这些数据。文章还介绍了一系列使用 ClickHouse 的可观测性初创公司——Groundcover、SigNoz 和 DeepFlow。
使用 ClickHouse 绘制金融图表
Adis Nezirović 在简要介绍了何时(以及何时不应)使用 ClickHouse 之后,演示了如何摄取、查询和可视化金融时间序列数据。在此过程中,他展示了如何使用 Null 表引擎来处理数据和聚合状态,以减少保留的数据量。最后,Adis 使用 Grafana QueryBuilder 创建了一个烛台图。
本月最佳文章
我们本月最喜欢的文章来自 ludwig,他对 ClickHouse 查询的速度和数据压缩质量印象深刻。
Adis Nezirović 在简要介绍了何时(以及何时不应)使用 ClickHouse 之后,演示了如何摄取、查询和可视化金融时间序列数据。在此过程中,他展示了如何使用 Null 表引擎来处理数据和聚合状态,以减少保留的数据量。最后,Adis 使用 Grafana QueryBuilder 创建了一个烛台图。