与 ClickHouse Cloud 集成
简介
ClickPipes 是一个托管集成平台,可以像点击几个按钮一样简单地从各种来源摄取数据。ClickPipes 的强大且可扩展的架构专为最苛刻的工作负载而设计,可确保始终如一的性能和可靠性。ClickPipes 可用于长期流式需求或一次性数据加载作业。
支持的数据源
| 名称 | Logo | 类型 | 状态 | 描述 |
|---|---|---|---|---|
| Apache Kafka | 流式传输 | 稳定 | 配置 ClickPipes 并开始将来自 Apache Kafka 的流式数据摄取到 ClickHouse Cloud 中。 | |
| Confluent Cloud | 流式传输 | 稳定 | 通过我们的直接集成,释放 Confluent 和 ClickHouse Cloud 的强大结合。 | |
| Redpanda | 流式传输 | 稳定 | 配置 ClickPipes 并开始将来自 Redpanda 的流式数据摄取到 ClickHouse Cloud 中。 | |
| AWS MSK | 流式传输 | 稳定 | 配置 ClickPipes 并开始将来自 AWS MSK 的流式数据摄取到 ClickHouse Cloud 中。 | |
| Azure Event Hubs | 流式传输 | 稳定 | 配置 ClickPipes 并开始将来自 Azure Event Hubs 的流式数据摄取到 ClickHouse Cloud 中。请参阅 Azure Event Hubs 常见问题 以获取指导。 | |
| WarpStream | 流式传输 | 稳定 | 配置 ClickPipes 并开始将来自 WarpStream 的流式数据摄取到 ClickHouse Cloud 中。 | |
| Amazon S3 | 对象存储 | 稳定 | 配置 ClickPipes 以摄取来自对象存储的大量数据。 | |
| Google Cloud Storage | 对象存储 | 稳定 | 配置 ClickPipes 以摄取来自对象存储的大量数据。 | |
| DigitalOcean Spaces | 对象存储 | 稳定 | 配置 ClickPipes 以摄取来自对象存储的大量数据。 | |
| Azure Blob Storage | 对象存储 | 稳定 | 配置 ClickPipes 以摄取来自对象存储的大量数据。 | |
| Amazon Kinesis | 流式传输 | 稳定 | 配置 ClickPipes 并开始将来自 Amazon Kinesis 的流式数据摄取到 ClickHouse Cloud 中。 | |
| Postgres | DBMS | 稳定 | 配置 ClickPipes 并开始将来自 Postgres 的数据摄取到 ClickHouse Cloud 中。 | |
| MySQL | DBMS | 公开 Beta 版 | 配置 ClickPipes 并开始将来自 MySQL 的数据摄取到 ClickHouse Cloud 中。 | |
| MongoDB | DBMS | 私有预览版 | 配置 ClickPipes 并开始将来自 MongoDB 的数据摄取到 ClickHouse Cloud 中。 |
更多连接器将被添加到 ClickPipes 中,您可以联系我们以了解更多信息。
静态 IP 列表
以下是 ClickPipes 用于连接到外部服务的静态 NAT IP(按区域分隔)。将相关的实例区域 IP 添加到您的 IP 允许列表中以允许流量。对于对象存储管道,您还应将 ClickHouse 集群 IP 添加到您的 IP 允许列表中。
对于所有服务,ClickPipes 流量将基于您的服务的地理位置从默认区域发起。
- eu-central-1:对于所有未明确列出的欧盟区域(包括 GCP 和 Azure 欧盟区域)。
- eu-west-1:对于在 2026 年 1 月 20 日或之后在 AWS
eu-west-1中创建的所有服务(在此日期之前创建的服务使用eu-central-1IP)。 - us-east-1:对于 AWS
us-east-1中的所有服务。 - ap-south-1:对于在 2025 年 6 月 25 日或之后在 AWS
ap-south-1中创建的服务(在此日期之前创建的服务使用us-east-2IP)。 - ap-northeast-2:对于在 2025 年 11 月 14 日或之后在 AWS
ap-northeast-2中创建的服务(在此日期之前创建的服务使用us-east-2IP)。 - ap-southeast-2:对于在 2025 年 6 月 25 日或之后在 AWS
ap-southeast-2中创建的服务(在此日期之前创建的服务使用us-east-2IP)。 - us-west-2:对于在 2025 年 6 月 24 日或之后在 AWS
us-west-2中创建的服务(在此日期之前创建的服务使用us-east-2IP)。 - us-east-2:对于所有未明确列出的其他区域(包括 GCP 和 Azure 区域)。
| AWS 区域 | IP 地址 |
|---|---|
| eu-central-1 | 18.195.233.217, 3.127.86.90, 35.157.23.2, 18.197.167.47, 3.122.25.29, 52.28.148.40 |
| eu-west-1(从 2026 年 1 月 20 日起) | 54.228.1.92 , 54.72.101.254, 54.228.16.208, 54.76.200.104, 52.211.2.177, 54.77.10.134 |
| us-east-1 | 54.82.38.199, 3.90.133.29, 52.5.177.8, 3.227.227.145, 3.216.6.184, 54.84.202.92, 3.131.130.196, 3.23.172.68, 3.20.208.150 |
| us-east-2 | 3.131.130.196, 3.23.172.68, 3.20.208.150, 3.132.20.192, 18.119.76.110, 3.134.185.180 |
| ap-south-1(从 2025 年 6 月 25 日起) | 13.203.140.189, 13.232.213.12, 13.235.145.208, 35.154.167.40, 65.0.39.245, 65.1.225.89 |
| ap-northeast-2(从 2025 年 11 月 14 日起) | 3.38.68.69, 52.78.68.128, 13.209.152.13, 3.38.24.84, 3.37.159.31, 3.34.25.104 |
| ap-southeast-2(从 2025 年 6 月 25 日起) | 3.106.48.103, 52.62.168.142, 13.55.113.162, 3.24.61.148, 54.206.77.184, 54.79.253.17 |
| us-west-2(从 2025 年 6 月 24 日起) | 52.42.100.5, 44.242.47.162, 52.40.44.52, 44.227.206.163, 44.246.241.23, 35.83.230.19 |
调整 ClickHouse 设置
ClickHouse Cloud 为大多数用例提供了合理的默认值。但是,如果您需要调整 ClickPipes 目标表的某些 ClickHouse 设置,为 ClickPipes 创建一个专用角色是更灵活的解决方案。步骤
- 创建一个自定义角色
CREATE ROLE my_clickpipes_role SETTINGS ...。有关详细信息,请参阅 CREATE ROLE 语法。 - 在 ClickPipes 创建期间的
Details and Settings步骤中,将自定义角色添加到 ClickPipes 用户。
调整 ClickPipes 高级设置
ClickPipes 提供了合理的默认值,涵盖了大多数用例的要求。如果您的用例需要额外的微调,您可以调整以下设置
对象存储 ClickPipes
| 设置 | 默认值 | 描述 |
|---|---|---|
最大插入字节数 | 10GB | 在单个插入批处理中处理的字节数。 |
最大文件数 | 100 | 在单个插入批处理中处理的最大文件数。 |
最大线程数 | auto(3) | 文件处理的最大并发线程数。 |
最大插入线程数 | 1 | 文件处理的最大并发插入线程数。 |
最小插入块大小字节数 | 1GB | 可以插入到表中的块中的最小字节大小。 |
最大下载线程数 | 4 | 最大并发下载线程数. |
对象存储轮询间隔 | 30s | 配置将数据插入 ClickHouse 集群的最大等待时间。 |
并行分布式插入选择 | 2 | 并行分布式插入选择设置. |
并行视图处理 | false | 是否启用并行推送并发而不是顺序地附加视图。 |
使用集群函数 | true | 是否跨多个节点并行处理文件。 |
流式 ClickPipes
| 设置 | 默认值 | 描述 |
|---|---|---|
流式传输最大插入等待时间 | 5s | 配置将数据插入 ClickHouse 集群的最大等待时间。 |
错误报告
ClickPipes 会将错误存储在两个单独的表中,具体取决于在摄取过程中遇到的错误类型。
记录错误
ClickPipes 会在您的目标表旁边创建一个表,后缀为 <destination_table_name>_clickpipes_error。该表将包含来自格式错误的数据或架构不匹配的任何错误,并将包含无效消息的全部内容。该表具有 TTL 为 7 天。
系统错误
与 ClickPipe 操作相关的错误将存储在 system.clickpipes_log 表中。这将存储所有其他与 ClickPipe 操作相关的错误(网络、连接等)。该表具有 TTL 为 7 天。
如果 ClickPipes 无法在 15 分钟后连接到数据源或在 1 小时后连接到目标,则 ClickPipes 实例将停止并在系统错误表中存储适当的消息(前提是 ClickHouse 实例可用)。
常见问题解答
-
什么是 ClickPipes?
ClickPipes 是 ClickHouse Cloud 的一项功能,可让您轻松地将 ClickHouse 服务连接到外部数据源,特别是 Kafka。借助 ClickPipes for Kafka,您可以轻松地持续将数据加载到 ClickHouse 中,以便进行实时分析。
-
ClickPipes 是否支持数据转换?
是的,ClickPipes 通过公开 DDL 创建支持基本数据转换。然后,您可以在 ClickHouse Cloud 服务中利用 ClickHouse 的 物化视图功能,对加载到目标表中的数据进行更高级的转换。
-
使用 ClickPipes 会产生额外费用吗?
ClickPipes 的计费维度有两个:摄取的数据和计算。完整的定价详情请访问 此页面。运行 ClickPipes 可能会在目标 ClickHouse Cloud 服务上产生间接的计算和存储成本,类似于任何摄取工作负载。
-
是否有办法处理使用 ClickPipes for Kafka 时的错误或故障?
是的,ClickPipes for Kafka 在从 Kafka 消费数据时,在发生任何操作问题(包括网络问题、连接问题等)时,将自动重试。如果数据格式错误或架构无效,ClickPipes 将记录存储在 record_error 表中的记录并继续处理。