在 ClickHouse 中使用 CSV 和 TSV 数据

ClickHouse 支持从 CSV 导入数据和导出数据到 CSV。由于 CSV 文件可能具有不同的格式规范，包括标题行、自定义分隔符和转义符号，ClickHouse 提供了格式和设置来有效地处理每种情况。

从 CSV 文件导入数据

在导入数据之前，让我们创建一个具有相关结构的表

CREATE TABLE sometable
(
    `path` String,
    `month` Date,
    `hits` UInt32
)
ENGINE = MergeTree
ORDER BY tuple(month, path)

要将数据从 CSV 文件导入到 sometable 表中，我们可以将文件直接管道传输到 clickhouse-client

clickhouse-client -q "INSERT INTO sometable FORMAT CSV" < data_small.csv

请注意，我们使用 FORMAT CSV 让 ClickHouse 知道我们正在摄取 CSV 格式的数据。或者，我们可以使用 FROM INFILE 子句从本地文件加载数据

INSERT INTO sometable
FROM INFILE 'data_small.csv'
FORMAT CSV

在这里，我们使用 FORMAT CSV 子句，以便 ClickHouse 理解文件格式。我们还可以使用 url() 函数直接从 URL 加载数据，或使用 s3() 函数从 S3 文件加载数据。

提示

我们可以跳过对 file() 和 INFILE/OUTFILE 的显式格式设置。在这种情况下，ClickHouse 将根据文件扩展名自动检测格式。

带有标题的 CSV 文件

假设我们的 CSV 文件包含标题

head data-small-headers.csv

"path","month","hits"
"Akiba_Hebrew_Academy","2017-08-01",241
"Aegithina_tiphia","2018-02-01",34

要从此文件导入数据，我们可以使用 CSVWithNames 格式

clickhouse-client -q "INSERT INTO sometable FORMAT CSVWithNames" < data_small_headers.csv

在这种情况下，ClickHouse 在从文件导入数据时会跳过第一行。

提示

从 23.1 版本开始，当使用 CSV 类型时，ClickHouse 将自动检测 CSV 文件中的标题，因此无需使用 CSVWithNames 或 CSVWithNamesAndTypes。

带有自定义分隔符的 CSV 文件

如果 CSV 文件使用逗号以外的分隔符，我们可以使用 format_csv_delimiter 选项来设置相关的符号

SET format_csv_delimiter = ';'

现在，当我们从 CSV 文件导入时，; 符号将用作分隔符，而不是逗号。

跳过 CSV 文件中的行

有时，我们可能需要在从 CSV 文件导入数据时跳过一定数量的行。可以使用 input_format_csv_skip_first_lines 选项来完成此操作

SET input_format_csv_skip_first_lines = 10

在这种情况下，我们将跳过 CSV 文件的前十行

SELECT count(*) FROM file('data-small.csv', CSV)

┌─count()─┐
│     990 │
└─────────┘

文件有 1k 行，但 ClickHouse 仅加载了 990 行，因为我们要求跳过前 10 行。

提示

当使用 file() 函数时，对于 ClickHouse Cloud，您需要在文件所在的机器上的 clickhouse client 中运行命令。另一种选择是使用 clickhouse-local 在本地浏览文件。

处理 CSV 文件中的 NULL 值

Null 值的编码方式可能因生成文件的应用程序而异。默认情况下，ClickHouse 在 CSV 中使用 \N 作为 Null 值。但是我们可以使用 format_csv_null_representation 选项来更改它。

假设我们有以下 CSV 文件

> cat nulls.csv
Donald,90
Joe,Nothing
Nothing,70

如果我们从此文件加载数据，ClickHouse 会将 Nothing 视为字符串（这是正确的）

SELECT * FROM file('nulls.csv')

┌─c1──────┬─c2──────┐
│ Donald  │ 90      │
│ Joe     │ Nothing │
│ Nothing │ 70      │
└─────────┴─────────┘

如果我们希望 ClickHouse 将 Nothing 视为 NULL，我们可以使用以下选项进行定义

SET format_csv_null_representation = 'Nothing'

现在我们在期望的位置有了 NULL

SELECT * FROM file('nulls.csv')

┌─c1─────┬─c2───┐
│ Donald │ 90   │
│ Joe    │ ᴺᵁᴸᴸ │
│ ᴺᵁᴸᴸ   │ 70   │
└────────┴──────┘

TSV（制表符分隔）文件

制表符分隔数据格式被广泛用作数据交换格式。要从 TSV 文件加载数据到 ClickHouse，使用 TabSeparated 格式

clickhouse-client -q "INSERT INTO sometable FORMAT TabSeparated" < data_small.tsv

还有 TabSeparatedWithNames 格式，允许处理带有标题的 TSV 文件。并且，与 CSV 类似，我们可以使用 input_format_tsv_skip_first_lines 选项跳过前 X 行。

原始 TSV

有时，TSV 文件在保存时没有转义制表符和换行符。我们应该使用 TabSeparatedRaw 来处理此类文件。

导出到 CSV

我们之前示例中的任何格式也可以用于导出数据。要将表（或查询）中的数据导出为 CSV 格式，我们使用相同的 FORMAT 子句

SELECT *
FROM sometable
LIMIT 5
FORMAT CSV

"Akiba_Hebrew_Academy","2017-08-01",241
"Aegithina_tiphia","2018-02-01",34
"1971-72_Utah_Stars_season","2016-10-01",1
"2015_UEFA_European_Under-21_Championship_qualification_Group_8","2015-12-01",73
"2016_Greater_Western_Sydney_Giants_season","2017-05-01",86

要向 CSV 文件添加标题，我们使用 CSVWithNames 格式

SELECT *
FROM sometable
LIMIT 5
FORMAT CSVWithNames

"path","month","hits"
"Akiba_Hebrew_Academy","2017-08-01",241
"Aegithina_tiphia","2018-02-01",34
"1971-72_Utah_Stars_season","2016-10-01",1
"2015_UEFA_European_Under-21_Championship_qualification_Group_8","2015-12-01",73
"2016_Greater_Western_Sydney_Giants_season","2017-05-01",86

将导出的数据保存到 CSV 文件

要将导出的数据保存到文件，我们可以使用 INTO…OUTFILE 子句

SELECT *
FROM sometable
INTO OUTFILE 'out.csv'
FORMAT CSVWithNames

36838935 rows in set. Elapsed: 1.304 sec. Processed 36.84 million rows, 1.42 GB (28.24 million rows/s., 1.09 GB/s.)

请注意 ClickHouse 花费了 ~1 秒将 3600 万行数据保存到 CSV 文件中。

导出带有自定义分隔符的 CSV

如果我们想要使用逗号以外的分隔符，我们可以使用 format_csv_delimiter 设置选项

SET format_csv_delimiter = '|'

现在 ClickHouse 将使用 | 作为 CSV 格式的分隔符

SELECT *
FROM sometable
LIMIT 5
FORMAT CSV

"Akiba_Hebrew_Academy"|"2017-08-01"|241
"Aegithina_tiphia"|"2018-02-01"|34
"1971-72_Utah_Stars_season"|"2016-10-01"|1
"2015_UEFA_European_Under-21_Championship_qualification_Group_8"|"2015-12-01"|73
"2016_Greater_Western_Sydney_Giants_season"|"2017-05-01"|86

为 Windows 导出 CSV

如果我们希望 CSV 文件在 Windows 环境中正常工作，我们应该考虑启用 output_format_csv_crlf_end_of_line 选项。这将使用 \r\n 作为换行符，而不是 \n

SET output_format_csv_crlf_end_of_line = 1;

CSV 文件的模式推断

在许多情况下，我们可能会处理未知的 CSV 文件，因此我们必须探索要用于列的类型。默认情况下，ClickHouse 将尝试根据对给定 CSV 文件的分析来猜测数据格式。这被称为“模式推断”。可以使用 DESCRIBE 语句与 file() 函数结合使用来探索检测到的数据类型

DESCRIBE file('data-small.csv', CSV)

┌─name─┬─type─────────────┬─default_type─┬─default_expression─┬─comment─┬─codec_expression─┬─ttl_expression─┐
│ c1   │ Nullable(String) │              │                    │         │                  │                │
│ c2   │ Nullable(Date)   │              │                    │         │                  │                │
│ c3   │ Nullable(Int64)  │              │                    │         │                  │                │
└──────┴──────────────────┴──────────────┴────────────────────┴─────────┴──────────────────┴────────────────┘

在这里，ClickHouse 可以有效地猜测我们的 CSV 文件的列类型。如果我们不希望 ClickHouse 进行猜测，我们可以使用以下选项禁用此功能

SET input_format_csv_use_best_effort_in_schema_inference = 0

在这种情况下，所有列类型都将被视为 String。

导出和导入带有显式列类型的 CSV

当使用 CSVWithNamesAndTypes（以及其他 *WithNames 格式系列）导出数据时，ClickHouse 还允许显式设置列类型

SELECT *
FROM sometable
LIMIT 5
FORMAT CSVWithNamesAndTypes

"path","month","hits"
"String","Date","UInt32"
"Akiba_Hebrew_Academy","2017-08-01",241
"Aegithina_tiphia","2018-02-01",34
"1971-72_Utah_Stars_season","2016-10-01",1
"2015_UEFA_European_Under-21_Championship_qualification_Group_8","2015-12-01",73
"2016_Greater_Western_Sydney_Giants_season","2017-05-01",86

此格式将包含两个标题行 - 一个包含列名，另一个包含列类型。这将允许 ClickHouse（和其他应用程序）在从此类文件加载数据时识别列类型

DESCRIBE file('data_csv_types.csv', CSVWithNamesAndTypes)

┌─name──┬─type───┬─default_type─┬─default_expression─┬─comment─┬─codec_expression─┬─ttl_expression─┐
│ path  │ String │              │                    │         │                  │                │
│ month │ Date   │              │                    │         │                  │                │
│ hits  │ UInt32 │              │                    │         │                  │                │
└───────┴────────┴──────────────┴────────────────────┴─────────┴──────────────────┴────────────────┘

现在 ClickHouse 根据（第二个）标题行而不是猜测来识别列类型。

自定义分隔符、分隔符和转义规则

在复杂的情况下，文本数据可以以高度自定义的方式格式化，但仍然具有结构。ClickHouse 有一个特殊的 CustomSeparated 格式用于这种情况，它允许设置自定义转义规则、分隔符、行分隔符和起始/结束符号。

假设我们在文件中具有以下数据

row('Akiba_Hebrew_Academy';'2017-08-01';241),row('Aegithina_tiphia';'2018-02-01';34),...

我们可以看到单个行被包装在 row() 中，行用 , 分隔，单个值用 ; 分隔。在这种情况下，我们可以使用以下设置从此文件读取数据

SET format_custom_row_before_delimiter = 'row(';
SET format_custom_row_after_delimiter = ')';
SET format_custom_field_delimiter = ';';
SET format_custom_row_between_delimiter = ',';
SET format_custom_escaping_rule = 'Quoted';

现在我们可以从我们的自定义格式化文件中加载数据

SELECT *
FROM file('data_small_custom.txt', CustomSeparated)
LIMIT 3

┌─c1────────────────────────┬─────────c2─┬──c3─┐
│ Akiba_Hebrew_Academy      │ 2017-08-01 │ 241 │
│ Aegithina_tiphia          │ 2018-02-01 │  34 │
│ 1971-72_Utah_Stars_season │ 2016-10-01 │   1 │
└───────────────────────────┴────────────┴─────┘

我们还可以使用 CustomSeparatedWithNames 来正确导出和导入标题。探索正则表达式和模板格式以处理更复杂的情况。

处理大型 CSV 文件

CSV 文件可能很大，ClickHouse 可以高效地处理任何大小的文件。大型文件通常是压缩的，ClickHouse 可以处理这种情况，无需在处理前解压缩。我们可以在插入期间使用 COMPRESSION 子句

INSERT INTO sometable
FROM INFILE 'data_csv.csv.gz'
COMPRESSION 'gzip' FORMAT CSV

如果省略 COMPRESSION 子句，ClickHouse 仍然会尝试根据文件扩展名猜测文件压缩。同样的方法可以用于将文件直接导出为压缩格式

SELECT *
FROM for_csv
INTO OUTFILE 'data_csv.csv.gz'
COMPRESSION 'gzip' FORMAT CSV

这将创建一个压缩的 data_csv.csv.gz 文件。

其他格式

ClickHouse 引入了对多种格式的支持，包括文本格式和二进制格式，以涵盖各种场景和平台。在以下文章中探索更多格式以及使用它们的方式

还可以查看 clickhouse-local - 一个便携式全功能工具，无需 ClickHouse 服务器即可处理本地/远程文件。

从 CSV 文件导入数据​

带有标题的 CSV 文件​

带有自定义分隔符的 CSV 文件​

跳过 CSV 文件中的行​

处理 CSV 文件中的 NULL 值​

TSV（制表符分隔）文件​

原始 TSV​

导出到 CSV​

将导出的数据保存到 CSV 文件​

导出带有自定义分隔符的 CSV​

为 Windows 导出 CSV​

CSV 文件的模式推断​

导出和导入带有显式列类型的 CSV​

自定义分隔符、分隔符和转义规则​

处理大型 CSV 文件​

其他格式​