我们今天激动地宣布,ClickHouse 将与 PeerDB 携手合作。PeerDB 是一家专注于 Postgres 的变更数据捕获 (CDC) 提供商,我们很高兴欢迎 PeerDB 团队和社区加入 ClickHouse 大家庭。
我们相信,通过结合我们的努力,我们将能够在两个领先的开源数据库:Postgres 和 ClickHouse 之间提供无缝且高效的集成。这将弥合事务性工作负载和分析性工作负载之间的差距,并为用户和开发人员释放更多价值。此外,当我们与 PeerDB 团队会面时,我们变得更加兴奋,因为我们公司之间明显的文化契合,以及我们工程(以性能为中心!)文化的协调一致。
数据硬币的两面
关于 Postgres 和 ClickHouse 的组合有很多话要说。一方面,Postgres 缓慢但稳步地崛起,成为当今几乎事实上的 Web 事务后端。Postgres 以其可靠性、开源根基、全面的功能集以及对事务性工作负载的强大支持而闻名,2024 StackOverflow 调查 将 Postgres 评为连续第二年的第一数据库,这并不令人意外。
另一方面,在分析领域,ClickHouse 在过去十年中也经历了类似的发展。作为一个开源、高性能、列式数据库,ClickHouse 针对实时分析和处理大量数据进行了优化,且不会在速度和效率上做出妥协,其广泛采用证明了现代软件中对实时分析日益增长的需求。
通过高性能且稳健的 CDC 集成,将 Postgres 强大的事务处理能力与 ClickHouse 的分析能力相结合,组织可以创建一个混合环境,其中操作数据无缝流入分析流程。这允许面向用户的实时洞察和决策,而不会影响数据一致性和事务完整性,并且已被包括 GitLab、Instacart、LangChain、Cloudflare 和 许多其他组织 在内的众多组织成功大规模采用。
变更数据捕获,做得正确。
在 ClickHouse 运营的规模下,提供快速可靠的变更数据捕获体验并非易事。当我们开始研究为 ClickPipes 提供 Postgres CDC 连接器时,我们评估了一系列选项,从从头开始或在开源基础上开发我们的解决方案,到许可特定技术。我们运行的首次测试结果清楚地表明,PeerDB 提供了一种独特的价值主张,与 ClickHouse 的核心原则非常契合。
PeerDB 的 CDC 问题方法专注于 Postgres 作为数据源,在不影响速度的情况下(具有极快的快照),同时保持可靠性和正确性。PeerDB 还非常注意保持 CDC 过程对源 Postgres 系统的非侵入性,该系统通常代表关键的操作系统。其他功能包括目标查询成本控制、重新同步功能、复制槽增长的监控和警报、模式演变、丰富的数据类型映射以及 ClickHouse 的 ReplacingMergeTree 的使用。
Vueling Airlines 的云架构经理 Javier Erro Garcia 分享了对即将到来的集成的兴奋之情
“作为 ClickHouse Cloud 和 PeerDB 的用户,我对这次收购感到非常兴奋。我们已经通过 PeerDB 将 Postgres 到 ClickHouse 的快照时间从 10 多个小时缩短到 15 分钟。将 ClickHouse 强大的分析能力与 PeerDB 的实时数据捕获能力本地结合,将大大简化我们的数据处理工作流程。这种集成将使我们能够更快地构建分析应用程序,从而在市场上获得竞争优势。”
这对 PeerDB 项目意味着什么?
PeerDB 项目仍保留在 ELv2 许可下,并对贡献开放。此外,我们很高兴地宣布,我们还将发布 PeerDB Enterprise,目前是一个商业专有产品,具有生产级 Helm chart,也在相同的免费和开放 ELv2 许可下发布。这允许任何 PeerDB 用户在未来轻松运行具有 PeerDB 的自管理生产级 CDC 工作负载。
这对 PeerDB Cloud 产品意味着什么?
ClickHouse Cloud 已经配备了其专用的数据摄取平台,又名 ClickPipes。ClickPipes 是一个集成引擎,可简化从各种来源(包括 Apache Kafka、Amazon S3 和 Google Cloud Storage)的数据摄取。截至今天,ClickPipes 已被用于可靠高效地将超过 1 万亿行数据移动到 ClickHouse Cloud。
通过与 PeerDB 携手合作,我们将添加一个新的连接器,以在 ClickPipes 中启用由 PeerDB 驱动的 Postgres CDC 用例。这将完全集成到 ClickHouse Cloud 体验中,并将受益于在可扩展性、监控和基础设施方面的相同基础。
我们理解数据工程变更可能需要时间来实施。因此,我们决定将使用非 ClickHouse Cloud 连接器的现有付费客户的 PeerDB Cloud 的生命周期结束 (EOL) 设置为一年后,即 2025 年 7 月 30 日。这是为了确保早期押注 PeerDB 技术并帮助其取得成功的组织有足够的时间来规划有序的过渡。客户将获得合同中承诺的相同支持和 SLA,我们将在需要时协助他们制定个性化的过渡计划。
我想设置 Postgres CDC 到 ClickHouse Cloud,我需要等待 ClickPipes 的 Postgres CDC 可用吗?
不,您现在就可以注册 PeerDB Cloud 产品,并将您的 Postgres 数据库连接到 ClickHouse Cloud。我们计划继续按现有条款为希望立即开始入职的用户提供此服务。这包括一个月的免费试用期。
一旦 ClickPipes 的等效 Postgres CDC 连接器普遍可用,我们将允许 PeerDB Cloud 用户停止其旧版管道,并在 ClickPipes for Postgres CDC 中再次声明它们,在那里他们可以受益于连接器和 ClickHouse Cloud 功能的完整生态系统。
下一步是什么?
虽然我们对将 Postgres CDC 功能引入 Clickhouse Cloud 感到非常兴奋,但这并非终点,PeerDB 的基础是稳固且可扩展的。在集成 Postgres CDC 功能后,我们计划将源 CDC 连接器的目录扩展到其他类型的数据库。这将主要由需求驱动,我们很乐意收到您的反馈,了解我们接下来应该添加哪个 CDC 源连接器。
保持联系!
与往常一样,ClickHouse 团队很荣幸有机会与您合作。无论您今天是否正在使用 PeerDB,或者对高效的 Postgres CDC 功能感兴趣,请联系我们!