简介
在 ClickPipes for Kafka 成功的基础上,我们很高兴地宣布扩展我们的连接平台,为 Amazon S3 和 Google Cloud Storage (GCS) 推出新的连接器,目前正处于 Beta 测试阶段。
大型批量数据加载
从头开始将数十亿(或数万亿!)行数据加载到 ClickHouse 服务中,由于任务耗时较长,可能会带来一定的挑战。 过程耗时越长,遇到瞬时问题的风险就越大,例如可能停止或中断数据加载的网络故障。 中断还可能导致目标表处于部分状态,难以恢复。 新的 ClickPipes 对象存储连接器,用于 Amazon S3 和 Google Cloud Storage (GCS),旨在解决这些障碍,并确保数据加载过程顺利无中断,无论摄取多少数据。
这些数据加载任务的弹性关键在于智能高效地使用 ClickHouse 目标服务的摄取能力,这是一种定制的编排,利用临时暂存表来提供用于重复性的原子数据管理单元,一个自定义的 KeeperMap 状态来跟踪进度并暂停/恢复任务,以及弹性的 ClickPipes 底层基础设施。 如果您对此感兴趣,可以在我们关于 ClickLoad 的文章中了解有关该功能背后核心逻辑的更多信息,ClickLoad 是一个实现类似编排方法的开源 python 脚本。
持续加载
在 Beta 测试阶段,用于 S3 和 GCS 的 ClickPipes 连接器将提供批量数据加载功能。 摄取任务将从特定的远程存储桶中加载与模式匹配的所有文件到 ClickHouse 目标表中。 请注意,出于效率原因,ClickPipes 将跳过大于 1 GB 的文件,我们建议将较大的文件拆分为 1 GB 的块。
一旦所有数据都成功插入到目标表中,ClickPipe 对象存储连接器将达到“已完成”状态。 在 GA 版本中,我们将启用“连续模式”,其中 ClickPipes 作业将持续运行,摄取添加到远程对象存储桶中的匹配文件。 这将允许用户将任何对象存储桶变成一个成熟的暂存区,用于将数据摄取到 ClickHouse Cloud 中。
支持的格式和身份验证
在此 Beta 版本中,对象存储连接器支持 JSON、CSV、TSV 和 Parquet 格式(以及它们的压缩对应格式)。 对于身份验证方法,ClickPipes 支持公共对象存储桶和使用基于凭据的身份验证的私有存储桶(AWS 访问密钥 ID 和密钥或 Google HMAC 密钥)。 IAM 基于角色的身份验证也适用于 Amazon S3 存储桶。
立即试用!
从今天开始,您可以在 ClickPipes 菜单(在“数据源”>“ClickPipes”下)访问新的对象存储 Beta 连接器。 您可以使用您自己的 S3 存储桶,或使用托管在我们公共存储桶上的以下测试文件进行快速测试 (69 MB)
https://datasets-documentation.s3.eu-west-3.amazonaws.com/github/github-2022-flat.ndjson.gz
有关文档和更多入门详细信息,请点击此处。 与往常一样,我们很乐意听取您的反馈和建议(联系我们)。 请继续关注更多更新和增强功能,我们将继续将 ClickPipes 发展成为 ClickHouse Cloud 的终极连接平台。