我们很高兴地宣布,ClickHouse 今天将与 PeerDB 合作,PeerDB 是一个专注于 Postgres 的变更数据捕获 (CDC) 提供商,我们很高兴欢迎 PeerDB 团队和社区加入 ClickHouse 家族。
我们相信,通过结合我们的努力,我们将能够为两个领先的开源数据库:Postgres 和 ClickHouse,提供无缝且高效的集成。这将有助于弥合事务性工作负载和分析性工作负载之间的差距,为用户和开发人员释放更多价值。此外,当我们与 PeerDB 团队会面时,我们更加兴奋,因为我们的公司之间有着明显的文化契合,以及我们工程(注重性能!)文化的一致性。
数据的两面
关于 Postgres 和 ClickHouse 这一对,有很多话要说。一方面,Postgres 稳步地发展到今天,成为网络事实上的事务性后端。以其可靠性、开源根源、全面的功能集和对事务性工作负载的强大支持而闻名,因此看到 2024 年 StackOverflow 调查 将 Postgres 连续第二年评为排名第一的数据库也就不足为奇了。
另一方面,在分析领域,ClickHouse 在过去十年中也经历了类似的发展。作为开源、高性能、面向列的数据库,ClickHouse 专为实时分析和处理大量数据而优化,并且不会牺牲速度和效率,ClickHouse 的广泛采用证明了现代软件对实时分析不断增长的需求。
通过将 Postgres 强大的事务性功能与 ClickHouse 的分析能力相结合,通过高性能且强大的 CDC 集成,组织可以创建一个混合环境,使运营数据无缝流入分析流程。这允许用户面对实时洞察力和决策,而不会影响数据一致性和事务完整性,并且已被包括 GitLab、Instacart、LangChain、Cloudflare 和 许多其他 在内的众多组织成功地大规模采用。
变更数据捕获,做得对。
提供快速可靠的变更数据捕获体验,在 ClickHouse 运行的规模上,这不是一个容易解决的问题。当我们开始研究为 ClickPipes 提供 Postgres CDC 连接器时,我们评估了一系列选项,从开发自己的解决方案(从头开始或基于开源基础)到许可特定技术。从我们运行的第一次测试的结果中可以明显看出,PeerDB 提供了一个独特的价值主张,它与 ClickHouse 的核心原则非常契合。
PeerDB 非常专注于 Postgres 作为数据源,它在 CDC 问题上的方法不会牺牲速度,拥有闪电般的快照速度,同时保持可靠性和正确性。还非常注重使 CDC 过程对源 Postgres 系统无侵入性,而源 Postgres 系统通常代表着关键的运营系统。其他功能包括目标查询成本控制、重新同步功能、监控和警报复制槽增长、模式演变、丰富的类型映射以及使用 ClickHouse 的 ReplacingMergeTree。
Vueling Airlines 的云架构经理 Javier Erro Garcia 对即将进行的集成表示兴奋
“作为 ClickHouse Cloud 和 PeerDB 的用户,我对这次收购感到非常激动。我们已经使用 PeerDB 将 Postgres 到 ClickHouse 的快照时间从 10 多个小时减少到 15 分钟。将 ClickHouse 的强大分析功能与 PeerDB 的实时数据捕获功能相结合,将极大地简化我们的数据处理工作流程。这种集成将使我们能够更快地构建分析应用程序,从而在市场上获得竞争优势。”
这对 PeerDB 项目意味着什么?
该 PeerDB 项目保留在 ELv2 许可下,并对贡献开放。此外,我们很高兴地宣布,我们还将发布 PeerDB 企业版,目前这是一款商业专有产品,具有生产级 Helm 图表,在相同的免费和开放 ELv2 许可下发布。这使得任何 PeerDB 用户都可以轻松地运行自托管的生产级 CDC 工作负载,PeerDB 将继续这样做。
这对 PeerDB 云产品意味着什么?
ClickHouse Cloud 已经拥有自己的专用数据摄取平台,即 ClickPipes。ClickPipes 是一个集成引擎,简化了来自各种来源的数据摄取,包括 Apache Kafka、Amazon S3 和 Google Cloud Storage。截至今天,ClickPipes 已经用于可靠且高效地将超过 1 万亿行数据迁移到 ClickHouse Cloud。
通过与 PeerDB 合作,我们将添加一个新的连接器,以在 ClickPipes 中启用 Postgres CDC 用例,该连接器由 PeerDB 提供支持。这将完全集成到 ClickHouse Cloud 体验中,并将从可扩展性、监控和基础设施方面获得相同的基础。
我们理解数据工程的更改可能需要时间才能实施。出于这个原因,我们决定将使用非 ClickHouse Cloud 连接器的现有付费客户的 PeerDB Cloud 的生命周期终止 (EOL) 设置为从现在起一年,即 2025 年 7 月 30 日。这样做是为了确保那些早期押注 PeerDB 技术并帮助其取得成功的组织有足够的时间规划有序的过渡。客户将收到合同中承诺的相同支持和 SLA,并在需要时,我们将为他们提供个性化的过渡计划。
我想设置 Postgres CDC 到 ClickHouse Cloud,我是否需要等待 Postgres CDC for ClickPipes 变得可用?
不需要,您今天就可以注册 PeerDB 云产品,并将您的 Postgres 数据库连接到 ClickHouse Cloud。我们计划继续以现有条款为希望立即开始入职的用户提供此服务。这包括一个月的免费试用。
一旦 ClickPipes 的等效 Postgres CDC 连接器普遍可用,我们将为 PeerDB Cloud 用户留出一些时间来停止他们的旧管道并在 ClickPipes for Postgres CDC 中重新声明它们,这样他们就可以从连接器的完整生态系统和 ClickHouse Cloud 功能中受益。
接下来是什么?
虽然我们非常高兴将 Postgres CDC 功能引入 Clickhouse Cloud,但这并不是结束,PeerDB 的基础是坚固且可扩展的。在集成 Postgres CDC 功能后,我们计划将源 CDC 连接器的连接器目录扩展到其他类型的数据库。这将主要由需求驱动,我们很乐意 收到您的反馈,告诉我们应该添加哪个 CDC 源连接器。
联系我们!
一如既往,ClickHouse 团队很荣幸能有机会与您合作。无论您现在是否使用 PeerDB,或者您是否对高效的 Postgres CDC 功能感兴趣,请 联系我们!