跳至主要内容

fileCluster 表函数

使集群中多个节点能够同时处理与指定路径匹配的文件。发起者建立到工作节点的连接,扩展文件路径中的通配符,并将文件读取任务委托给工作节点。每个工作节点都查询发起者以获取要处理的下一个文件,重复此操作直到所有任务完成(所有文件都被读取)。

注意

此函数仅在与最初指定路径匹配的文件集在所有节点上都相同且其内容在不同节点之间一致的情况下才能正常运行。
如果这些文件在不同节点之间有所不同,则返回值无法预先确定,并且取决于工作节点从发起者请求任务的顺序。

语法

fileCluster(cluster_name, path[, format, structure, compression_method])

参数

  • cluster_name - 用于构建一组地址和连接参数到远程和本地服务器的集群名称。
  • path - 文件相对于 user_files_path 的路径。文件路径也支持 通配符
  • format - 文件的 格式。类型: 字符串
  • structure - 以 'UserID UInt64, Name String' 格式表示的表结构。确定列名和类型。类型: 字符串
  • compression_method - 压缩方法。支持的压缩类型包括 gzbrxzzstlz4bz2

返回值

具有指定格式和结构的表,其中包含与指定路径匹配的文件中的数据。

示例

假设有一个名为 my_cluster 的集群,并且 user_files_path 设置的值如下所示:

$ grep user_files_path /etc/clickhouse-server/config.xml
<user_files_path>/var/lib/clickhouse/user_files/</user_files_path>

另外,假设每个集群节点的 user_files_path 中存在文件 test1.csvtest2.csv,并且它们的内容在不同节点之间相同。

$ cat /var/lib/clickhouse/user_files/test1.csv
1,"file1"
11,"file11"

$ cat /var/lib/clickhouse/user_files/test2.csv
2,"file2"
22,"file22"

例如,可以通过在每个集群节点上执行以下两个查询来创建这些文件:

INSERT INTO TABLE FUNCTION file('file1.csv', 'CSV', 'i UInt32, s String') VALUES (1,'file1'), (11,'file11');
INSERT INTO TABLE FUNCTION file('file2.csv', 'CSV', 'i UInt32, s String') VALUES (2,'file2'), (22,'file22');

现在,通过 fileCluster 表函数读取 test1.csvtest2.csv 的数据内容:

SELECT * FROM fileCluster('my_cluster', 'file{1,2}.csv', 'CSV', 'i UInt32, s String') ORDER BY i, s
┌──i─┬─s──────┐
│ 1 │ file1 │
│ 11 │ file11 │
└────┴────────┘
┌──i─┬─s──────┐
│ 2 │ file2 │
│ 22 │ file22 │
└────┴────────┘

路径中的通配符

FileCluster 支持 File 表函数支持的所有模式。

另请参阅