立即开始使用 ClickHouse Cloud,并获得 300 美元信用额度。要了解有关我们基于用量的折扣的更多信息,请联系我们或访问我们的定价页面。
欢迎来到发布周!本周我们每天都将发布 ClickHouse Cloud 的一项新功能。让我们开始吧。
首先,我们很高兴宣布我们的适用于 ClickPipes 的 Amazon Kinesis 连接器发布 Beta 版。作为我们最受欢迎的集成之一,它提供了一种轻松的方式,将数据从 Kinesis Data Streams 摄取到 ClickHouse Cloud 服务中。
我们还制作了一个简短的视频,展示了这一切是如何运作的,您可以在下面观看。
“流的需求”
Amazon Web Services (AWS) 云生态系统为设置复杂的数据架构和管道提供了强大的构建块。数据可以采用各种形式,并来自不同的媒介,从对象存储到数据库和流式传输系统。在 ClickHouse,ClickPipes 代表了我们致力于在用户所在之处满足其需求的承诺。通过提供托管数据摄取功能,我们使用户可以专注于他们的分析用例,而不是构建和维护复杂的数据管道。
例如,我们最近宣布了用于 Amazon S3 的批量数据加载连接器,该连接器允许用户可靠地加载大型数据批次和历史上传。今天,借助用于 ClickPipes 的 Amazon Kinesis 连接器,AWS 用户可以使用近乎实时的流数据功能来完善蓝图,从而解锁基于事件的用例和管道,同时保持其架构足迹最小。
Lambda、Kappa 架构?少用希腊字母,多用见解
Lambda 架构结合了批处理和流处理,用于处理历史数据和实时数据,而 Kappa 架构通过仅依赖流处理来简化这一点,从而消除了批处理层(来源)。无论处理流数据还是批数据,ClickHouse Cloud 都极大地简化了这种架构,ClickPipes 提供到高效存储引擎的无缝摄取,并具有丰富的查询执行功能。将您的静态存储桶或实时流视为数据源,ClickPipes 将自动使其保持同步,从而使您可以专注于从数据中获取见解。这代表着朝着实现实时数据仓库用例、在仓库级别统一数据迈出了又一步。
底层原理:关注可靠性
适用于 Kinesis 的 ClickPipes 利用我们现有的 Apache Kafka 流式摄取基础设施来摄取 Kinesis Data Streams。我们的 Kinesis 消费者实现与 Kafka 的主要区别在于以下两个方面:检查点操作在 Kinesis 的消费者端完成。为了支持这一点,我们将读取检查点(称为 SequenceNumbers)写入客户的 ClickHouse DB 实例,利用 ClickHouse 键值存储 KeeperMap。此外,为了读取 Kinesis 流,ClickPipes 并发地读取 Kinesis 流提供的多个分片。分片具有固定的吞吐量和硬性限制,因此 Kinesis 通过添加和删除分片来扩展自身。我们持续检查分片的数量,并在每个分片扩展时读取它。
不断增长的托管连接器生态系统
对于 ClickPipes 团队来说,这真是忙碌的一个季度。在为我们的 Kafka 连接器集添加 Avro 支持、发布用于 Amazon S3 和 Google Cloud Storage (GCS) 的批量数据加载连接器以及现在的 Amazon Kinesis 支持之后,ClickPipes 生态系统继续深入和广度地扩展。我们路线图的下一步
- 用于 ClickPipes 的 PostgreSQL 变更数据捕获 (CDC) 连接器
- 用于 Amazon S3 和 Google Cloud Storage 的批量数据加载连接器的连续模式(允许监控远程存储桶并摄取新添加的文件)
- ClickPipes Kafka 连接器的偏移量控制
- ClickPipes 复制(允许从现有配置创建新的 ClickPipes)
- ClickPipes 公共 API
- 改进的可观察性和通知
这远非代表未来几个季度将要发生的事情的完整列表。与往常一样,我们鼓励您分享您的用例和需求,以帮助塑造我们的路线图。请随时与我们联系!
立即开始使用 ClickHouse Cloud,并获得 300 美元信用额度。在 30 天试用期结束时,继续使用按需付费计划,或联系我们以了解有关我们基于用量的折扣的更多信息。访问我们的定价页面了解详情。