将 Amazon MSK 与 ClickHouse 集成
先决条件
我们假设
- 您熟悉 ClickHouse Connector Sink、Amazon MSK 和 MSK Connectors。我们推荐 Amazon MSK 入门指南 和 MSK Connect 指南。
- MSK broker 可以公开访问。请参阅开发者指南的 公共访问 部分。
来自 ClickHouse 的官方 Kafka 连接器,用于 Amazon MSK
收集您的连接详细信息
要通过 HTTP(S) 连接到 ClickHouse,您需要以下信息
-
HOST 和 PORT:通常,使用 TLS 时端口为 8443,不使用 TLS 时端口为 8123。
-
DATABASE NAME:开箱即用,有一个名为
default
的数据库,请使用您要连接的数据库的名称。 -
USERNAME 和 PASSWORD:开箱即用,用户名为
default
。请使用适合您用例的用户名。
您的 ClickHouse Cloud 服务的详细信息可在 ClickHouse Cloud 控制台中找到。选择您要连接的服务,然后单击 Connect
选择 HTTPS,详细信息在示例 curl
命令中提供。
如果您使用自托管的 ClickHouse,则连接详细信息由您的 ClickHouse 管理员设置。
步骤
- 确保您熟悉 ClickHouse Connector Sink
- 创建 MSK 实例.
- 创建并分配 IAM 角色.
- 从 ClickHouse Connect Sink 发布页面 下载 jar 文件。
- 在 Amazon MSK 控制台的 自定义插件页面 上安装下载的 jar 文件。
- 如果 Connector 与公共 ClickHouse 实例通信,请 启用互联网访问。
- 在配置中提供主题名称、ClickHouse 实例主机名和密码。
connector.class=com.clickhouse.kafka.connect.ClickHouseSinkConnector
tasks.max=1
topics=<topic_name>
ssl=true
security.protocol=SSL
hostname=<hostname>
database=<database_name>
password=<password>
ssl.truststore.location=/tmp/kafka.client.truststore.jks
port=8443
value.converter.schemas.enable=false
value.converter=org.apache.kafka.connect.json.JsonConverter
exactlyOnce=true
username=default
schemas.enable=false
性能调优
提高性能的一种方法是调整批处理大小和从 Kafka 获取的记录数,方法是将以下内容添加到 worker 配置中
consumer.max.poll.records=[NUMBER OF RECORDS]
consumer.max.partition.fetch.bytes=[NUMBER OF RECORDS * RECORD SIZE IN BYTES]
您使用的具体值将根据所需的记录数和记录大小而有所不同。例如,默认值为
consumer.max.poll.records=500
consumer.max.partition.fetch.bytes=1048576
您可以在官方 Kafka 和 Amazon MSK 文档中找到更多详细信息(包括实现和其他注意事项)。
关于 MSK Connect 网络连接的注意事项
为了使 MSK Connect 连接到 ClickHouse,我们建议您的 MSK 集群位于具有连接到互联网的私有 NAT 的私有子网中。以下提供了有关如何设置此项的说明。请注意,公共子网是受支持的,但不建议使用,因为需要不断地为您的 ENI 分配弹性 IP 地址,AWS 在此处提供了更多详细信息
- 创建私有子网:在您的 VPC 中创建一个新的子网,将其指定为私有子网。此子网不应直接访问互联网。
- 创建 NAT 网关:在您的 VPC 的公共子网中创建一个 NAT 网关。NAT 网关使您的私有子网中的实例能够连接到互联网或其他 AWS 服务,但阻止互联网启动与这些实例的连接。
- 更新路由表:添加一条将互联网绑定流量定向到 NAT 网关的路由
- 确保安全组和网络 ACL 配置:配置您的 安全组 和 网络 ACL(访问控制列表) 以允许与您的 ClickHouse 实例之间的相关流量。
- 对于 ClickHouse Cloud,配置您的安全组以允许端口 9440 和 8443 上的入站流量。
- 对于自托管的 ClickHouse,配置您的安全组以允许配置文件中端口(默认为 8123)上的入站流量。
- 将安全组附加到 MSK:确保将路由到 NAT 网关的这些新安全组附加到您的 MSK 集群