如何从 S3 存储桶摄取 Parquet 文件

2023 年 3 月 22 日 ·3 分钟阅读

了解在 ClickHouse 中使用 S3 表引擎从 S3 存储桶摄取和查询 Parquet 文件的基础知识，包括设置、访问权限和数据导入示例。

从 S3 存储桶摄取 Parquet 文件

以下是使用 S3 表引擎读取 parquet 文件的一些基础知识。

为 IAM 服务用户创建访问密钥和密钥。普通登录用户通常不起作用，因为他们可能已配置 MFA 策略。
设置策略的权限，以允许服务用户访问存储桶和文件夹。

以下是一个非常简单的示例，您可以使用它来测试成功访问 parquet 文件的机制，然后再应用于您的实际数据。

如果您需要创建用户和存储桶的示例，您可以按照前两节（创建用户和创建存储桶）： https://clickhouse.ac.cn/docs/en/guides/sre/configuring-s3-for-clickhouse-use/

我使用了这个示例文件： https://github.com/Teradata/kylo/tree/master/samples/sample-data/parquet 并将其上传到我的测试存储桶

您可以在存储桶上设置如下策略：（根据需要调整，这个策略的权限相当开放，但有助于测试。您可以根据需要缩小权限范围）

{
    "Version": "2012-10-17",
    "Id": "Policy123456",
    "Statement": [
        {
            "Sid": "abc123",
            "Effect": "Allow",
            "Principal": {
                "AWS": [
                    "arn:aws:iam::1234567890:user/mars-s3-user"
                ]
            },
            "Action": "s3:*",
            "Resource": [
                "arn:aws:s3:::mars-doc-test",
                "arn:aws:s3:::mars-doc-test/*"
            ]
        }
    ]
}

您可以使用以下类型的语法和 S3 表引擎运行查询： https://clickhouse.ac.cn/docs/en/sql-reference/table-functions/s3/

clickhouse-cloud :)  select count(*) from s3('https://mars-doc-test.s3.amazonaws.com/s3-parquet-test/userdata1.parquet','ABC123', 'abc+123', 'Parquet', 'first_name String');

SELECT count(*)
FROM s3('https://mars-doc-test.s3.amazonaws.com/s3-parquet-test/userdata1.parquet', 'ABC123', 'abc+123', 'Parquet', 'first_name String')

Query id: fd4f1193-d604-4ac0-9a46-bdd2d5e14727

┌─count()─┐
│    1000 │
└─────────┘

1 row in set. Elapsed: 1.274 sec. Processed 1.00 thousand rows, 14.64 KB (784.81 rows/s., 11.49 KB/s.)

parquet 格式的数据类型参考在这里： https://clickhouse.ac.cn/docs/en/interfaces/formats/#data-format-parquet

要将数据导入到原生 ClickHouse 表中

创建表，类似于这样（仅选择了 parquet 文件中的几列）

clickhouse-cloud :) CREATE TABLE my_parquet_table (id UInt64, first_name String) ENGINE = MergeTree ORDER BY id;

CREATE TABLE my_parquet_table
(
    `id` UInt64,
    `first_name` String
)
ENGINE = MergeTree
ORDER BY id

Query id: 412e3994-bf8e-444e-ac43-a7c82642b7da

Ok.

0 rows in set. Elapsed: 0.600 sec.

从 S3 存储桶中选择数据以插入到新表中

clickhouse-cloud :) INSERT INTO my_parquet_table (id, first_name) SELECT id, first_name FROM s3('https://mars-doc-test.s3.amazonaws.com/s3-parquet-test/userdata1.parquet', 'ABC123','abc+123', 'Parquet', 'id UInt64, first_name String') FORMAT Parquet

INSERT INTO my_parquet_table (id, first_name) SELECT
    id,
    first_name
FROM s3('https://mars-doc-test.s3.amazonaws.com/s3-parquet-test/userdata1.parquet', 'ABC123', 'abc+123', 'Parquet', 'id UInt64, first_name String')

Query id: c3cdc871-f338-462d-8797-6751b45a0b58

Ok.

0 rows in set. Elapsed: 1.220 sec. Processed 1.00 thousand rows, 22.64 KB (819.61 rows/s., 18.56 KB/s.)

验证导入

clickhouse-cloud :) SELECT * FROM my_parquet_table LIMIT 10;

SELECT *
FROM my_parquet_table
LIMIT 10

Query id: 1ccf59dd-d804-46a9-aadd-ed5c57b9e1a0

┌─id─┬─first_name─┐
│  1 │ Amanda     │
│  2 │ Albert     │
│  3 │ Evelyn     │
│  4 │ Denise     │
│  5 │ Carlos     │
│  6 │ Kathryn    │
│  7 │ Samuel     │
│  8 │ Harry      │
│  9 │ Jose       │
│ 10 │ Emily      │
└────┴────────────┘

当您准备好导入真实数据时，可以使用一些特殊语法，例如通配符和范围，来指定存储桶中的文件夹、子文件夹和文件。我建议先过滤一些目录和文件来测试导入，可能是一定的年份、几个月和一些日期范围来进行初步测试。

除了此处的路径选项外，新发布的是语法 **，它递归地指定所有子目录。 https://clickhouse.ac.cn/docs/en/sql-reference/table-functions/s3/

例如，假设路径和存储桶结构类似于这样： https://your_s3_bucket.s3.amazonaws.com/<your_folder>/<year>/<month>/<day>/<filename>.parquet https://mars-doc-test.s3.amazonaws.com/system_logs/2022/11/01/my-app-logs-0001.parquet

这将获取 2021-2022 年每个月 1 号的所有文件 https://mars-doc-test.s3.amazonaws.com/system_logs/{2021-2022}/**/01/*.parquet

从 S3 存储桶摄取 Parquet 文件​

从 S3 存储桶摄取 Parquet 文件