File 表引擎

File 表引擎将数据保存在受支持的文件格式（TabSeparated、Native 等）的文件中。

使用场景

从 ClickHouse 导出数据到文件。
将数据从一种格式转换为另一种格式。
通过编辑磁盘上的文件来更新 ClickHouse 中的数据。

注意

此引擎目前在 ClickHouse Cloud 中不可用，请改用 S3 表函数。

在 ClickHouse 服务器中使用

File(Format)

Format 参数指定可用的文件格式之一。要执行 SELECT 查询，格式必须支持输入，要执行 INSERT 查询，格式必须支持输出。可用格式在格式部分列出。

ClickHouse 不允许为 File 指定文件系统路径。它将使用服务器配置中path设置定义的文件夹。

使用 File(Format) 创建表时，它会在该文件夹中创建空子目录。当数据写入该表时，它会被放入该子目录中的 data.Format 文件中。

您可以手动在服务器文件系统中创建此子文件夹和文件，然后使用匹配的名称ATTACH将其附加到表信息，这样您就可以从该文件中查询数据。

注意

请小心使用此功能，因为 ClickHouse 不会跟踪对此类文件的外部更改。通过 ClickHouse 和 ClickHouse 外部同时写入的结果是未定义的。

示例

1. 设置 file_engine_table 表

CREATE TABLE file_engine_table (name String, value UInt32) ENGINE=File(TabSeparated)

默认情况下，ClickHouse 将创建文件夹 /var/lib/clickhouse/data/default/file_engine_table。

2. 手动创建包含以下内容的 /var/lib/clickhouse/data/default/file_engine_table/data.TabSeparated

$ cat data.TabSeparated
one 1
two 2

3. 查询数据

SELECT * FROM file_engine_table

┌─name─┬─value─┐
│ one  │     1 │
│ two  │     2 │
└──────┴───────┘

在 ClickHouse-local 中使用

在 clickhouse-local 中，File 引擎除了 Format 之外还接受文件路径。可以使用数字或人类可读的名称（如 0 或 stdin、1 或 stdout）指定默认的输入/输出流。可以基于额外的引擎参数或文件扩展名（gz、br 或 xz）读取和写入压缩文件。

示例

$ echo -e "1,2\n3,4" | clickhouse-local -q "CREATE TABLE table (a Int64, b Int64) ENGINE = File(CSV, stdin); SELECT a, b FROM table; DROP TABLE table"

实现细节

可以并发执行多个 SELECT 查询，但 INSERT 查询将相互等待。
支持通过 INSERT 查询创建新文件。
如果文件存在，INSERT 将在其末尾追加新值。
不支持
- ALTER
- SELECT ... SAMPLE
- 索引
- 复制

PARTITION BY

PARTITION BY — 可选。可以通过在分区键上对数据进行分区来创建单独的文件。在大多数情况下，您不需要分区键，如果需要，通常不需要比按月更精细的分区键。分区不会加速查询（与 ORDER BY 表达式相反）。您绝不应使用过于精细的分区。不要按客户端标识符或名称对数据进行分区（而是将客户端标识符或名称作为 ORDER BY 表达式中的第一列）。

对于按月分区，请使用 toYYYYMM(date_column) 表达式，其中 date_column 是类型为Date的日期列。此处的分区名称具有 "YYYYMM" 格式。

虚拟列

_path — 文件的路径。类型：LowCardinality(String)。
_file — 文件的名称。类型：LowCardinality(String)。
_size — 文件的大小（以字节为单位）。类型：Nullable(UInt64)。如果大小未知，则值为 NULL。
_time — 文件的上次修改时间。类型：Nullable(DateTime)。如果时间未知，则值为 NULL。

设置

engine_file_empty_if_not_exists - 允许从不存在的文件中选择空数据。默认禁用。
engine_file_truncate_on_insert - 允许在插入文件之前截断文件。默认禁用。
engine_file_allow_create_multiple_files - 允许在每次插入时创建一个新文件（如果格式带有后缀）。默认禁用。
engine_file_skip_empty_files - 允许在读取时跳过空文件。默认禁用。
storage_file_read_method - 从存储文件读取数据的方法，以下之一：read、pread、mmap。mmap 方法不适用于 clickhouse-server（它适用于 clickhouse-local）。默认值：clickhouse-server 为 pread，clickhouse-local 为 mmap。

在 ClickHouse 服务器中使用​

示例​

在 ClickHouse-local 中使用​

实现细节​

PARTITION BY​

虚拟列​

设置​

在 ClickHouse 服务器中使用

示例

在 ClickHouse-local 中使用

实现细节

PARTITION BY

虚拟列

设置