博客 / 产品

ClickPipes 批量数据加载：介绍 S3 和 GCS 支持

Ryadh Dahimene

Apr 18, 2024 - 5 分钟阅读

在 ClickPipes for Kafka 成功的基础上，我们很高兴地宣布扩展我们的连接平台，为 Amazon S3 和 Google Cloud Storage (GCS) 推出新的连接器，目前正处于 Beta 测试阶段。

从头开始将数十亿（或数万亿！）行数据加载到 ClickHouse 服务中，由于任务耗时较长，可能会带来一定的挑战。过程耗时越长，遇到瞬时问题的风险就越大，例如可能停止或中断数据加载的网络故障。中断还可能导致目标表处于部分状态，难以恢复。新的 ClickPipes 对象存储连接器，用于 Amazon S3 和 Google Cloud Storage (GCS)，旨在解决这些障碍，并确保数据加载过程顺利无中断，无论摄取多少数据。

这些数据加载任务的弹性关键在于智能高效地使用 ClickHouse 目标服务的摄取能力，这是一种定制的编排，利用临时暂存表来提供用于重复性的原子数据管理单元，一个自定义的 KeeperMap 状态来跟踪进度并暂停/恢复任务，以及弹性的 ClickPipes 底层基础设施。如果您对此感兴趣，可以在我们关于 ClickLoad 的文章中了解有关该功能背后核心逻辑的更多信息，ClickLoad 是一个实现类似编排方法的开源 python 脚本。

在 Beta 测试阶段，用于 S3 和 GCS 的 ClickPipes 连接器将提供批量数据加载功能。摄取任务将从特定的远程存储桶中加载与模式匹配的所有文件到 ClickHouse 目标表中。请注意，出于效率原因，ClickPipes 将跳过大于 1 GB 的文件，我们建议将较大的文件拆分为 1 GB 的块。

一旦所有数据都成功插入到目标表中，ClickPipe 对象存储连接器将达到“已完成”状态。在 GA 版本中，我们将启用“连续模式”，其中 ClickPipes 作业将持续运行，摄取添加到远程对象存储桶中的匹配文件。这将允许用户将任何对象存储桶变成一个成熟的暂存区，用于将数据摄取到 ClickHouse Cloud 中。

在此 Beta 版本中，对象存储连接器支持 JSON、CSV、TSV 和 Parquet 格式（以及它们的压缩对应格式）。对于身份验证方法，ClickPipes 支持公共对象存储桶和使用基于凭据的身份验证的私有存储桶（AWS 访问密钥 ID 和密钥或 Google HMAC 密钥）。 IAM 基于角色的身份验证也适用于 Amazon S3 存储桶。

从今天开始，您可以在 ClickPipes 菜单（在“数据源”>“ClickPipes”下）访问新的对象存储 Beta 连接器。您可以使用您自己的 S3 存储桶，或使用托管在我们公共存储桶上的以下测试文件进行快速测试 (69 MB)

https://datasets-documentation.s3.eu-west-3.amazonaws.com/github/github-2022-flat.ndjson.gz

有关文档和更多入门详细信息，请点击此处。与往常一样，我们很乐意听取您的反馈和建议（联系我们）。请继续关注更多更新和增强功能，我们将继续将 ClickPipes 发展成为 ClickHouse Cloud 的终极连接平台。

立即开始使用 ClickHouse Cloud，并获得 300 美元信用额度。在 30 天试用期结束时，继续使用按需付费计划，或联系我们以了解有关我们基于用量的折扣的更多信息。访问我们的定价页面了解详情。

分享这篇文章

订阅我们的新闻通讯

随时了解功能发布、产品路线图、支持和云产品信息！

正在加载表单...

博客 / 产品

ClickPipes 批量数据加载：介绍 S3 和 GCS 支持

简介

大型批量数据加载

持续加载

支持的格式和身份验证

立即试用！

订阅我们的新闻通讯

最新文章