博客 / 产品

ClickPipes 批量数据加载:介绍 S3 和 GCS 支持

author avatar
Ryadh Dahimene
Apr 18, 2024 - 5 分钟阅读

简介

在 ClickPipes for Kafka 成功的基础上,我们很高兴地宣布扩展我们的连接平台,为 Amazon S3 和 Google Cloud Storage (GCS) 推出新的连接器,目前正处于 Beta 测试阶段。

1.png

大型批量数据加载

从头开始将数十亿(或数万亿!)行数据加载到 ClickHouse 服务中,由于任务耗时较长,可能会带来一定的挑战。 过程耗时越长,遇到瞬时问题的风险就越大,例如可能停止或中断数据加载的网络故障。 中断还可能导致目标表处于部分状态,难以恢复。 新的 ClickPipes 对象存储连接器,用于 Amazon S3 和 Google Cloud Storage (GCS),旨在解决这些障碍,并确保数据加载过程顺利无中断,无论摄取多少数据。

这些数据加载任务的弹性关键在于智能高效地使用 ClickHouse 目标服务的摄取能力,这是一种定制的编排,利用临时暂存表来提供用于重复性的原子数据管理单元,一个自定义的 KeeperMap 状态来跟踪进度并暂停/恢复任务,以及弹性的 ClickPipes 底层基础设施。 如果您对此感兴趣,可以在我们关于 ClickLoad 的文章中了解有关该功能背后核心逻辑的更多信息,ClickLoad 是一个实现类似编排方法的开源 python 脚本。

2.png

持续加载

在 Beta 测试阶段,用于 S3 和 GCS 的 ClickPipes 连接器将提供批量数据加载功能。 摄取任务将从特定的远程存储桶中加载与模式匹配的所有文件到 ClickHouse 目标表中。 请注意,出于效率原因,ClickPipes 将跳过大于 1 GB 的文件,我们建议将较大的文件拆分为 1 GB 的块。

s3_CP.gif

一旦所有数据都成功插入到目标表中,ClickPipe 对象存储连接器将达到“已完成”状态。 在 GA 版本中,我们将启用“连续模式”,其中 ClickPipes 作业将持续运行,摄取添加到远程对象存储桶中的匹配文件。 这将允许用户将任何对象存储桶变成一个成熟的暂存区,用于将数据摄取到 ClickHouse Cloud 中。

4.png

5.png

支持的格式和身份验证

在此 Beta 版本中,对象存储连接器支持 JSON、CSV、TSV 和 Parquet 格式(以及它们的压缩对应格式)。 对于身份验证方法,ClickPipes 支持公共对象存储桶和使用基于凭据的身份验证的私有存储桶(AWS 访问密钥 ID 和密钥或 Google HMAC 密钥)。 IAM 基于角色的身份验证也适用于 Amazon S3 存储桶。

立即试用!

从今天开始,您可以在 ClickPipes 菜单(在“数据源”>“ClickPipes”下)访问新的对象存储 Beta 连接器。 您可以使用您自己的 S3 存储桶,或使用托管在我们公共存储桶上的以下测试文件进行快速测试 (69 MB)

https://datasets-documentation.s3.eu-west-3.amazonaws.com/github/github-2022-flat.ndjson.gz

6.png

有关文档和更多入门详细信息,请点击此处。 与往常一样,我们很乐意听取您的反馈和建议(联系我们)。 请继续关注更多更新和增强功能,我们将继续将 ClickPipes 发展成为 ClickHouse Cloud 的终极连接平台。

立即开始使用 ClickHouse Cloud,并获得 300 美元信用额度。 在 30 天试用期结束时,继续使用按需付费计划,或联系我们以了解有关我们基于用量的折扣的更多信息。 访问我们的定价页面了解详情。

分享这篇文章

订阅我们的新闻通讯

随时了解功能发布、产品路线图、支持和云产品信息!
正在加载表单...
关注我们
X imageSlack imageGitHub image
Telegram imageMeetup imageRss image
©2025ClickHouse, Inc. 总部位于美国加利福尼亚州湾区和荷兰阿姆斯特丹。