OPTIMIZE 语句
此查询尝试初始化表的未计划合并数据部分。请注意,我们通常不建议使用 OPTIMIZE TABLE ... FINAL(请参阅这些 文档),因为它的使用场景是针对管理,而不是日常操作。
OPTIMIZE 无法修复 Too many parts 错误。
语法
OPTIMIZE 查询支持 MergeTree 系列(包括 物化视图)和 Buffer 引擎。其他表引擎不受支持。
当 OPTIMIZE 与 ReplicatedMergeTree 系列表引擎一起使用时,ClickHouse 会创建一个合并任务,并在所有副本上等待执行(如果 alter_sync 设置为 2),或者在当前副本上等待执行(如果 alter_sync 设置为 1)。
- 如果
OPTIMIZE由于任何原因未执行合并,它不会通知客户端。要启用通知,请使用 optimize_throw_if_noop 设置。 - 如果指定了
PARTITION,则仅优化指定的分区。 如何设置分区表达式。 - 如果指定了
FINAL或FORCE,即使所有数据已经在一个部分中,也会执行优化。可以使用 optimize_skip_merged_partitions 控制此行为。此外,即使正在执行并发合并,也会强制执行合并。 - 如果指定了
DEDUPLICATE,则完全相同的行(除非指定了 by 子句)将被去重(比较所有列),这仅对 MergeTree 引擎有意义。
可以使用 replication_wait_for_inactive_replica_timeout 设置来指定等待不活动副本执行 OPTIMIZE 查询的时间(以秒为单位)。
如果 alter_sync 设置为 2,并且一些副本在超过 replication_wait_for_inactive_replica_timeout 设置指定的时间后仍未处于活动状态,则会抛出异常 UNFINISHED。
BY 表达式
如果您想对自定义列集执行去重,而不是对所有列,您可以显式指定列列表,或使用 *、COLUMNS 或 EXCEPT 表达式的任何组合。显式编写或隐式扩展的列列表必须包括行排序表达式(主键和排序键)和分区表达式(分区键)中指定的所有列。
语法
示例
考虑以下表
结果
以下所有示例都是针对此状态(5 行)执行的。
DEDUPLICATE
当未指定去重列时,会考虑所有列。只有当所有列中的值都等于前一行中的相应值时,该行才会被删除
结果
DEDUPLICATE BY *
当列被隐式指定时,表会根据所有不是 ALIAS 或 MATERIALIZED 的列进行去重。考虑到上表,这些是 primary_key、secondary_key、value 和 partition_key 列
结果
DEDUPLICATE BY * EXCEPT
根据所有不是 ALIAS 或 MATERIALIZED 且明确不是 value 的列进行去重:primary_key、secondary_key 和 partition_key 列。
结果
DEDUPLICATE BY <列列表>
显式根据 primary_key、secondary_key 和 partition_key 列进行去重
结果
DEDUPLICATE BY COLUMNS(<正则表达式>)
根据与正则表达式匹配的所有列进行去重:primary_key、secondary_key 和 partition_key 列
结果