简介
基于 ClickPipes for Kafka 的成功,我们很高兴地宣布扩展我们的连接平台,推出针对 Amazon S3 和 Google Cloud Storage (GCS) 的新连接器,目前处于测试阶段。
大批量数据加载
从头开始将数十亿(或 数万亿!)行加载到 ClickHouse 服务中可能会带来一些挑战,因为此任务非常耗时。过程持续时间越长,遇到网络故障等瞬态问题的风险就越大,这些问题可能会停止或中断数据加载。中断也可能导致目标表处于部分状态,这可能难以恢复。Amazon S3 和 Google Cloud Storage (GCS) 的全新 ClickPipes 对象存储连接器旨在解决这些障碍,并确保数据加载过程顺利进行且无中断,无论摄取的数据量是多少。
这些数据加载任务的弹性关键在于明智且有效地利用 ClickHouse 目标服务的摄取功能,这是一种定制编排,利用临时暂存表提供可重复的数据管理原子单元,一个自定义的 KeeperMap 状态,用于跟踪进度并暂停/恢复任务,以及弹性的 ClickPipes 底层基础设施。如果您好奇,可以在我们关于 ClickLoad 的文章中了解有关此功能核心逻辑的更多信息,ClickLoad 是一个开源 Python 脚本,实现了类似的编排方法。
持续加载
在测试阶段,S3 和 GCS 的 ClickPipes 连接器将提供批量数据加载功能。摄取任务将根据特定远程存储桶中的 模式 匹配所有文件,并将其加载到 ClickHouse 目标表中。请注意,出于效率原因,ClickPipes 将跳过大于 1 GB 的文件,我们建议将较大的文件拆分为 1 GB 的块。
一旦所有数据成功插入目标表,ClickPipe 对象存储连接器将进入“已完成”状态。在 GA 版本中,我们将启用“持续模式”,其中 ClickPipes 作业将持续运行,摄取添加到远程对象存储存储桶中的匹配文件(按到达顺序)。这将允许用户将任何对象存储存储桶变成一个功能齐全的暂存区域,用于将数据摄取到 ClickHouse Cloud 中。
支持的格式和身份验证
在此测试版本中,对象存储连接器支持 JSON、CSV、TSV 和 Parquet 格式(以及它们的压缩对应格式)。对于身份验证方法,ClickPipes 支持公共对象存储存储桶和使用基于凭据的身份验证的私有存储桶(AWS 访问密钥 ID 和密钥或 Google HMAC 密钥)。Amazon S3 存储桶也支持基于 IAM 角色的身份验证。
立即试用!
从今天开始,您可以在 ClickPipes 菜单(在“数据源”>“ClickPipes”下)中访问新的对象存储测试连接器。您可以将其与您自己的 S3 存储桶一起使用,或使用我们公共存储桶中托管的以下测试文件进行快速测试(69 MB)
https://datasets-documentation.s3.eu-west-3.amazonaws.com/github/github-2022-flat.ndjson.gz
有关如何开始的文档和更多详细信息,请参见 此处。与往常一样,我们很乐意听取您的反馈和建议(联系我们)。随着我们继续将 ClickPipes 发展成为 ClickHouse Cloud 的终极连接平台,敬请关注更多更新和增强功能。