跳至主要内容
跳至主要内容
编辑此页

Amazon Redshift 到 ClickHouse 迁移

本文档提供了将数据从 Amazon Redshift 迁移到 ClickHouse 的介绍。

简介

Amazon Redshift 是一种云数据仓库,为结构化和半结构化数据提供报告和分析功能。它旨在利用类似于 ClickHouse 的列式数据库原理处理大数据集上的分析工作负载。作为 AWS 产品的一部分,它通常是 AWS 用户在其分析数据需求方面首选的默认解决方案。

虽然对现有的 AWS 用户来说具有吸引力,因为它与 Amazon 生态系统紧密集成,但采用 Redshift 来支持实时分析应用程序的用户发现他们需要一个更优化的解决方案来实现这一目的。因此,他们越来越多地转向 ClickHouse,以受益于卓越的查询性能和数据压缩,无论是作为替代方案还是与现有的 Redshift 工作负载一起部署的“加速层”。

ClickHouse 与 Redshift

对于深度投资于 AWS 生态系统的用户来说,Redshift 在面临数据仓库需求时是一个自然的选择。Redshift 与 ClickHouse 在这方面有所不同——它优化其引擎以用于需要复杂报告和分析查询的数据仓库工作负载。在所有部署模式下,以下两个限制使其难以将 Redshift 用于实时分析工作负载

  • Redshift 为每次查询执行计划编译代码,这给首次查询执行增加了显著的开销。当查询模式可预测并且可以存储编译后的执行计划在查询缓存中时,这种开销是合理的。但是,这给具有可变查询的交互式应用程序带来了挑战。即使 Redshift 能够利用此代码编译缓存,ClickHouse 在大多数查询上仍然更快。请参阅 “ClickBench”
  • Redshift 限制所有队列中的并发量为 50,这(虽然对于 BI 来说足够了)使其不适合高度并发的分析应用程序。

相反,虽然 ClickHouse 也可以用于复杂的分析查询,但它针对实时分析工作负载进行了优化,可以为应用程序提供支持或作为仓库加速器。因此,Redshift 用户通常会用 ClickHouse 替换或增强 Redshift,原因如下

优势描述
更低的查询延迟ClickHouse 实现更低的查询延迟,包括对于不同的查询模式,在高并发和流式插入的情况下。即使您的查询错过缓存(在交互式面向用户的分析中不可避免),ClickHouse 仍然可以快速处理它。
更高的并发查询限制ClickHouse 对并发查询的限制远高于 Redshift,这对于实时应用程序体验至关重要。在 ClickHouse 中,无论是自管的还是云端的,都可以扩展计算资源分配以实现应用程序所需的并发量。允许的查询并发级别在 ClickHouse 中是可配置的,ClickHouse Cloud 默认值为 1000。
卓越的数据压缩ClickHouse 提供卓越的数据压缩,从而减少您的总存储空间(从而降低成本)或在相同的成本下持久化更多数据,并从您的数据中获得更多实时洞察。请参阅下面的“ClickHouse 与 Redshift 存储效率”。
    © . This site is unofficial and not affiliated with ClickHouse, Inc.