DoubleCloud 即将停止服务。迁移到 ClickHouse,享受限时免费迁移服务。立即联系我们 ->->

博客 / 产品

ClickPipes 批量数据加载:推出 S3 和 GCS 支持

author avatar
Ryadh Dahimene
2024年4月18日

简介

基于 ClickPipes for Kafka 的成功,我们很高兴地宣布扩展我们的连接平台,推出针对 Amazon S3 和 Google Cloud Storage (GCS) 的新连接器,目前处于测试阶段。

1.png

大批量数据加载

从头开始将数十亿(或 数万亿!)行加载到 ClickHouse 服务中可能会带来一些挑战,因为此任务非常耗时。过程持续时间越长,遇到网络故障等瞬态问题的风险就越大,这些问题可能会停止或中断数据加载。中断也可能导致目标表处于部分状态,这可能难以恢复。Amazon S3 和 Google Cloud Storage (GCS) 的全新 ClickPipes 对象存储连接器旨在解决这些障碍,并确保数据加载过程顺利进行且无中断,无论摄取的数据量是多少。

这些数据加载任务的弹性关键在于明智且有效地利用 ClickHouse 目标服务的摄取功能,这是一种定制编排,利用临时暂存表提供可重复的数据管理原子单元,一个自定义的 KeeperMap 状态,用于跟踪进度并暂停/恢复任务,以及弹性的 ClickPipes 底层基础设施。如果您好奇,可以在我们关于 ClickLoad 的文章中了解有关此功能核心逻辑的更多信息,ClickLoad 是一个开源 Python 脚本,实现了类似的编排方法。

2.png

持续加载

在测试阶段,S3 和 GCS 的 ClickPipes 连接器将提供批量数据加载功能。摄取任务将根据特定远程存储桶中的 模式 匹配所有文件,并将其加载到 ClickHouse 目标表中。请注意,出于效率原因,ClickPipes 将跳过大于 1 GB 的文件,我们建议将较大的文件拆分为 1 GB 的块。

s3_CP.gif

一旦所有数据成功插入目标表,ClickPipe 对象存储连接器将进入“已完成”状态。在 GA 版本中,我们将启用“持续模式”,其中 ClickPipes 作业将持续运行,摄取添加到远程对象存储存储桶中的匹配文件(按到达顺序)。这将允许用户将任何对象存储存储桶变成一个功能齐全的暂存区域,用于将数据摄取到 ClickHouse Cloud 中。

4.png

5.png

支持的格式和身份验证

在此测试版本中,对象存储连接器支持 JSON、CSV、TSV 和 Parquet 格式(以及它们的压缩对应格式)。对于身份验证方法,ClickPipes 支持公共对象存储存储桶和使用基于凭据的身份验证的私有存储桶(AWS 访问密钥 ID 和密钥或 Google HMAC 密钥)。Amazon S3 存储桶也支持基于 IAM 角色的身份验证。

立即试用!

从今天开始,您可以在 ClickPipes 菜单(在“数据源”>“ClickPipes”下)中访问新的对象存储测试连接器。您可以将其与您自己的 S3 存储桶一起使用,或使用我们公共存储桶中托管的以下测试文件进行快速测试(69 MB)

https://datasets-documentation.s3.eu-west-3.amazonaws.com/github/github-2022-flat.ndjson.gz

6.png

有关如何开始的文档和更多详细信息,请参见 此处。与往常一样,我们很乐意听取您的反馈和建议(联系我们)。随着我们继续将 ClickPipes 发展成为 ClickHouse Cloud 的终极连接平台,敬请关注更多更新和增强功能。

立即开始使用 ClickHouse Cloud 并获得 300 美元的信用额度。在 30 天试用期结束时,您可以继续使用按需付费计划,或 联系我们 了解有关我们基于用量的折扣的更多信息。有关详细信息,请访问我们的 定价页面

分享此文章

订阅我们的时事通讯

随时了解功能发布、产品路线图、支持和云产品!
正在加载表单…
关注我们
Twitter imageSlack imageGitHub image
Telegram imageMeetup imageRss image