OPTIMIZE 语句

此查询尝试初始化表的未计划数据部件合并。请注意，我们通常建议不要使用 OPTIMIZE TABLE ... FINAL（请参阅这些文档），因为它的用例是用于管理，而不是日常操作。

注意

OPTIMIZE 无法修复 Too many parts 错误。

语法

OPTIMIZE TABLE [db.]name [ON CLUSTER cluster] [PARTITION partition | PARTITION ID 'partition_id'] [FINAL | FORCE] [DEDUPLICATE [BY expression]]

OPTIMIZE 查询支持 MergeTree 家族（包括物化视图）和 Buffer 引擎。不支持其他表引擎。

当 OPTIMIZE 与 ReplicatedMergeTree 表引擎家族一起使用时，ClickHouse 会创建一个合并任务，并等待在所有副本上执行（如果 alter_sync 设置为 2）或在当前副本上执行（如果 alter_sync 设置为 1）。

如果 OPTIMIZE 由于任何原因未执行合并，它不会通知客户端。要启用通知，请使用 optimize_throw_if_noop 设置。
如果指定 PARTITION，则仅优化指定的 partition。如何设置 partition 表达式。
如果指定 FINAL 或 FORCE，即使所有数据已在一个部件中，也会执行优化。您可以使用 optimize_skip_merged_partitions 控制此行为。此外，即使执行并发合并，也会强制执行合并。
如果指定 DEDUPLICATE，则将删除完全相同的行（除非指定了 by-clause）（比较所有列），这仅对 MergeTree 引擎有意义。

您可以通过 replication_wait_for_inactive_replica_timeout 设置指定等待非活动副本执行 OPTIMIZE 查询的时间（以秒为单位）。

注意

如果 alter_sync 设置为 2 并且某些副本的非活动时间超过了 replication_wait_for_inactive_replica_timeout 设置指定的时间，则会抛出异常 UNFINISHED。

BY 表达式

如果要在自定义列集而不是所有列上执行去重，您可以显式指定列列表，或者使用 *、COLUMNS 或 EXCEPT 表达式的任意组合。显式写入或隐式展开的列列表必须包括行排序表达式（主键和排序键）和分区表达式（分区键）中指定的所有列。

注意

请注意，* 的行为与 SELECT 中一样：MATERIALIZED 和 ALIAS 列不用于扩展。

此外，指定空列列表，或编写导致空列列表的表达式，或按 ALIAS 列去重都是错误的。

语法

OPTIMIZE TABLE table DEDUPLICATE; -- all columns
OPTIMIZE TABLE table DEDUPLICATE BY *; -- excludes MATERIALIZED and ALIAS columns
OPTIMIZE TABLE table DEDUPLICATE BY colX,colY,colZ;
OPTIMIZE TABLE table DEDUPLICATE BY * EXCEPT colX;
OPTIMIZE TABLE table DEDUPLICATE BY * EXCEPT (colX, colY);
OPTIMIZE TABLE table DEDUPLICATE BY COLUMNS('column-matched-by-regex');
OPTIMIZE TABLE table DEDUPLICATE BY COLUMNS('column-matched-by-regex') EXCEPT colX;
OPTIMIZE TABLE table DEDUPLICATE BY COLUMNS('column-matched-by-regex') EXCEPT (colX, colY);

示例

考虑下表

CREATE TABLE example (
    primary_key Int32,
    secondary_key Int32,
    value UInt32,
    partition_key UInt32,
    materialized_value UInt32 MATERIALIZED 12345,
    aliased_value UInt32 ALIAS 2,
    PRIMARY KEY primary_key
) ENGINE=MergeTree
PARTITION BY partition_key
ORDER BY (primary_key, secondary_key);

INSERT INTO example (primary_key, secondary_key, value, partition_key)
VALUES (0, 0, 0, 0), (0, 0, 0, 0), (1, 1, 2, 2), (1, 1, 2, 3), (1, 1, 3, 3);

SELECT * FROM example;

结果

┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           0 │             0 │     0 │             0 │
│           0 │             0 │     0 │             0 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           1 │             1 │     2 │             2 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           1 │             1 │     2 │             3 │
│           1 │             1 │     3 │             3 │
└─────────────┴───────────────┴───────┴───────────────┘

以下所有示例都针对具有 5 行的此状态执行。

`DEDUPLICATE`

当未指定去重列时，将考虑所有列。仅当所有列中的所有值都等于前一行中的对应值时，才会删除该行

OPTIMIZE TABLE example FINAL DEDUPLICATE;

SELECT * FROM example;

结果

┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           1 │             1 │     2 │             2 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           0 │             0 │     0 │             0 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           1 │             1 │     2 │             3 │
│           1 │             1 │     3 │             3 │
└─────────────┴───────────────┴───────┴───────────────┘

`DEDUPLICATE BY *`

当隐式指定列时，表将按所有不是 ALIAS 或 MATERIALIZED 的列进行去重。考虑到上表，这些列是 primary_key、secondary_key、value 和 partition_key 列

OPTIMIZE TABLE example FINAL DEDUPLICATE BY *;

SELECT * FROM example;

结果

┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           1 │             1 │     2 │             2 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           0 │             0 │     0 │             0 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           1 │             1 │     2 │             3 │
│           1 │             1 │     3 │             3 │
└─────────────┴───────────────┴───────┴───────────────┘

`DEDUPLICATE BY * EXCEPT`

按所有不是 ALIAS 或 MATERIALIZED 且显式不是 value 的列去重：primary_key、secondary_key 和 partition_key 列。

OPTIMIZE TABLE example FINAL DEDUPLICATE BY * EXCEPT value;

SELECT * FROM example;

结果

┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           1 │             1 │     2 │             2 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           0 │             0 │     0 │             0 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           1 │             1 │     2 │             3 │
└─────────────┴───────────────┴───────┴───────────────┘

`DEDUPLICATE BY <列列表>`

显式按 primary_key、secondary_key 和 partition_key 列去重

OPTIMIZE TABLE example FINAL DEDUPLICATE BY primary_key, secondary_key, partition_key;

SELECT * FROM example;

结果

┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           1 │             1 │     2 │             2 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           0 │             0 │     0 │             0 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           1 │             1 │     2 │             3 │
└─────────────┴───────────────┴───────┴───────────────┘

`DEDUPLICATE BY COLUMNS(<regex>)`

按与正则表达式匹配的所有列去重：primary_key、secondary_key 和 partition_key 列

OPTIMIZE TABLE example FINAL DEDUPLICATE BY COLUMNS('.*_key');

SELECT * FROM example;

结果

┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           0 │             0 │     0 │             0 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           1 │             1 │     2 │             2 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│           1 │             1 │     2 │             3 │
└─────────────┴───────────────┴───────┴───────────────┘

BY 表达式​

DEDUPLICATE​

DEDUPLICATE BY *​

DEDUPLICATE BY * EXCEPT​

DEDUPLICATE BY <列列表>​

DEDUPLICATE BY COLUMNS(<regex>)​