博客 / 产品

ClickPy 达到万亿行

ClickHouse 团队

2024 年 8 月 30 日 - 9 分钟阅读

PyPi (Python 包索引) 是 Python 编程语言的软件仓库。它位于 Python 生态系统的中心，各种库每天被下载近 20 亿次。

与这些下载相关的元数据可以在 BigQuery 中访问。这对于执行临时查询来说很好，但我们想要创建一个面向用户的服务，让用户可以探索他们最喜欢的软件包。

欢迎使用 ClickPy，这是一款基于 ClickHouse 构建的免费服务，可让您对 PyPi 软件包下载执行实时分析。代码也是开源的，并且在 GitHub 上提供，因此您可以在本地运行该服务。

0_Google Keep (1).png

ClickPy 已经上线大约 9 个月了，几周前，数据库中的主表超过了1 万亿行，代表了各种库的 1 万亿次下载。

这篇博文将解释我们如何构建应用程序并处理如此庞大的数据集。

这个项目包含三个广泛实体的数据

国家/地区 - 国家/地区名称和代码。
项目 - 关于每个 PyPi 项目的元数据。
下载 - 关于每个项目安装的元数据。

我们将为每个数据集创建一个表。它们将分别被称为 countries、projects 和 pypi。

pypi 包含最多的数据，因为每次下载都是一行，而且我们有很多行！因此，我们将为常见的查询模式创建下游表，并创建相应的物化视图来填充这些表。下图显示了我们将要创建的所有表

ClickPy 1 Trillion Rows Banner (1).png

ClickHouse 还支持字典，字典是用于参考数据的内存键值对。我们将为国家/地区创建字典，将国家/地区代码映射到国家/地区名称，另一个用于项目，将项目名称映射到上次更新时间。

项目和下载的底层数据在 BigQuery 中可用。但是，导出数据需要几个小时，因此我们将数据导出到 Google Cloud Storage 存储桶中作为 Parquet 文件。您可以在 ClickPy GitHub 存储库中找到执行此操作的查询。

然后，我们将数据导入到两个表：projects 和 pypi。我们不会深入探讨创建这些表的查询，但您可以在此文件中找到这些查询。

然后我们可以运行以下查询来导入项目

INSERT INTO projects 
SELECT *
FROM s3(
'https://storage.googleapis.com/clickhouse_public_datasets/pypi/packages/packages-*.parquet'
)

以及以下查询来导入下载

INSERT INTO pypi 
SELECT timestamp::Date as date, country_code, project, file.type as type, 
       installer.name as installer, 
       arrayStringConcat(arraySlice(splitByChar('.', python), 1, 2), '.') as python_minor, 
       system.name as system, file.version as version 
FROM s3(
  'https://<bucket>/file_downloads-00000000001*.parquet', 
  'Parquet', 
  'timestamp DateTime64(6), country_code LowCardinality(String), url String, project String, `file.filename` String, `file.project` String, `file.version` String, `file.type` String, `installer.name` String, `installer.version` String, python String, `implementation.name` String, `implementation.version` String, `distro.name` String, `distro.version` String, `distro.id` String, `distro.libc.lib` String, `distro.libc.version` String, `system.name` String, `system.release` String, cpu String, openssl_version String, setuptools_version String, rustc_version String,tls_protocol String, tls_cipher String') 
WHERE python_minor != '' AND system != '' 
SETTINGS input_format_null_as_default = 1, 
         input_format_parquet_import_nested = 1

我们使用此脚本加载了前 6000 亿行。然后我们有一个 cron 作业，它每小时运行一次，提取自上次运行以来添加的新行，并将这些行导出到 Parquet 文件中。然后有一些工作进程会拾取这些 Parquet 文件并将它们摄取到 ClickHouse 中。执行此操作的工具称为 ClickLoad，您可以在这篇博文中了解更多信息。

ClickPy 1 Trillion Rows Banner.png

最后，我们有一个包含国家/地区的 CSV 文件，我们使用以下查询导入该文件

INSERT INTO pypi.countries 
SELECT name,  `alpha-2` AS code
FROM url(
'https://gist.githubusercontent.com/gingerwizard/963e2aa7b0f65a3e8761ce2d413ba02c/raw/4b09800f48d932890eedd3ec5f7de380f2067947/country_codes.csv'
)

让我们也看一下物化视图，它从 pypi 填充下游表之一。在 ClickHouse 中，物化视图是每当行插入到上游表时执行的 SQL 代码片段。

CREATE MATERIALIZED VIEW pypi.pypi_downloads_per_day_by_version_by_system_mv 
TO pypi.pypi_downloads_per_day_by_version_by_system (
  `date` Date, 
  `project` String, 
  `version` String, 
  `system` String, 
  `count` Int64
) AS 
SELECT date, project, version, system, count() AS count 
FROM pypi.pypi 
GROUP BY date, project, version, system

对于上面建模部分中描述的每个下游表，我们都有一个这样的物化视图。

ClickPy 的前端是用 Next.JS 和 React 编写的。应用程序代码也在 GitHub 存储库中提供。

主页包含所有页面的概述，显示了新兴的存储库、一段时间未更新的热门存储库、最近的版本等等。您可以点击进入任何链接的项目

或者，您可以在搜索栏中搜索您最喜欢的项目。

2_Google Keep (2).png

让我们看一下 openai 库，它与 OpenAI 的 API 交互。如果我们搜索 openai 并单击第一个结果，我们将看到以下页面

3_Google Keep (3).png

页面的顶部部分包含从 GitHub 提取的一些数据，但下面是下载统计信息。每个小部件都有一个箭头按钮，单击该按钮将带我们进入 Play UI，并预先填充小部件的底层查询。

例如，如果我们单击“热门版本”查询，我们将看到这个查询

4_Google Keep (4).png

在撰写本文时，OpenAI 库的最新版本是 1.41.0，但更多人下载的是 2023 年 9 月首次发布的版本。

除了使用 Play UI 之外，如果您想直接查询数据，您可以使用只读 play 用户使用 ClickHouse Client 连接到数据库

./clickhouse client \
  -h clickpy-clickhouse.clickhouse.com \
  --user play --secure \
  --database pypi

您可以通过运行以下命令查看可查询的表列表

SHOW TABLES

┌─name─────────────────────────────────────────────────────────────────┐
│ countries                                                            │
│ countries_dict                                                       │
│ last_updated_dict                                                    │
│ projects                                                             │
│ pypi                                                                 │
│ pypi_downloads                                                       │
│ pypi_downloads_by_version                                            │
│ pypi_downloads_by_version_mv                                         │
│ pypi_downloads_max_min                                               │
│ pypi_downloads_max_min_mv                                            │
│ pypi_downloads_mv                                                    │
│ pypi_downloads_per_day                                               │
│ pypi_downloads_per_day_by_version                                    │
│ pypi_downloads_per_day_by_version_by_country                         │
│ pypi_downloads_per_day_by_version_by_country_mv                      │
│ pypi_downloads_per_day_by_version_by_file_type                       │
│ pypi_downloads_per_day_by_version_by_file_type_mv                    │
│ pypi_downloads_per_day_by_version_by_installer_by_type               │
│ pypi_downloads_per_day_by_version_by_installer_by_type_by_country    │
│ pypi_downloads_per_day_by_version_by_installer_by_type_by_country_mv │
│ pypi_downloads_per_day_by_version_by_installer_by_type_mv            │
│ pypi_downloads_per_day_by_version_by_python                          │
│ pypi_downloads_per_day_by_version_by_python_by_country               │
│ pypi_downloads_per_day_by_version_by_python_by_country_mv            │
│ pypi_downloads_per_day_by_version_by_python_mv                       │
│ pypi_downloads_per_day_by_version_by_system                          │
│ pypi_downloads_per_day_by_version_by_system_by_country               │
│ pypi_downloads_per_day_by_version_by_system_by_country_mv            │
│ pypi_downloads_per_day_by_version_by_system_mv                       │
│ pypi_downloads_per_day_by_version_mv                                 │
│ pypi_downloads_per_day_mv                                            │
│ pypi_downloads_per_month                                             │
│ pypi_downloads_per_month_mv                                          │
└──────────────────────────────────────────────────────────────────────┘

每个查询读取的行数限制为 100 亿行，因此您可能不想查询 pypi 表，因为您很可能会超出限制。

其他表的行数少得多，因此例如，我们可以编写以下查询来计算过去 10 天 pandas 的下载次数，并显示一个漂亮的条形图

WITH downloadsPerDay AS (
   SELECT date, sum(count) AS count
   FROM pypi.pypi_downloads_per_day
   WHERE (date >= (now() - (((10 * 24) * 60) * 60))) AND (project = 'pandas')
   GROUP BY ALL
)

SELECT date, count,
    formatReadableQuantity(count) AS readableSize,
    bar(count, 0, (SELECT max(count) FROM downloadsPerDay), 10) AS bar
FROM downloadsPerDay

GROUP BY ALL
ORDER BY date ASC

┌───────date─┬───count─┬─readableSize─┬─bar────────┐
│ 2024-08-12 │ 9787106 │ 9.79 million │ █████████▉ │
│ 2024-08-13 │ 9727401 │ 9.73 million │ █████████▉ │
│ 2024-08-14 │ 9309011 │ 9.31 million │ █████████▍ │
│ 2024-08-15 │ 8825396 │ 8.83 million │ ████████▉  │
│ 2024-08-16 │ 9428220 │ 9.43 million │ █████████▌ │
│ 2024-08-17 │ 5915869 │ 5.92 million │ ██████     │
│ 2024-08-18 │ 5955829 │ 5.96 million │ ██████     │
│ 2024-08-19 │ 9118143 │ 9.12 million │ █████████▎ │
│ 2024-08-20 │ 9846985 │ 9.85 million │ ██████████ │
└────────────┴─────────┴──────────────┴────────────┘