如何使用 chDB 查询 Pandas DataFrame

Pandas 是一个流行的 Python 数据操作和分析库。在 chDB 的版本 2 中，我们改进了查询 Pandas DataFrame 的性能，并引入了 Python 表函数。在本指南中，我们将学习如何使用 Python 表函数查询 Pandas。

设置

首先，让我们创建一个虚拟环境

python -m venv .venv
source .venv/bin/activate

现在我们将安装 chDB。请确保您安装的是 2.0.2 或更高版本

pip install "chdb>=2.0.2"

现在我们将安装 Pandas 和其他一些库

pip install pandas requests ipython

我们将使用 ipython 来运行本指南其余部分的命令，您可以通过运行以下命令启动它

ipython

您也可以在 Python 脚本或您喜欢的 Notebook 中使用代码。

从 URL 创建 Pandas DataFrame

我们将查询来自 StatsBomb GitHub 仓库的一些数据。首先，让我们导入 requests 和 pandas

import requests
import pandas as pd

然后，我们将其中一个 matches JSON 文件加载到 DataFrame 中

response = requests.get(
  "https://raw.githubusercontent.com/statsbomb/open-data/master/data/matches/223/282.json"
)
matches_df = pd.json_normalize(response.json(), sep='_')

让我们看看我们将使用什么数据

matches_df.iloc[0]

match_id                                                                  3943077
match_date                                                             2024-07-15
kick_off                                                             04:15:00.000
home_score                                                                      1
away_score                                                                      0
match_status                                                            available
match_status_360                                                      unscheduled
last_updated                                           2024-07-15T15:50:08.671355
last_updated_360                                                             None
match_week                                                                      6
competition_competition_id                                                    223
competition_country_name                                            South America
competition_competition_name                                         Copa America
season_season_id                                                              282
season_season_name                                                           2024
home_team_home_team_id                                                        779
home_team_home_team_name                                                Argentina
home_team_home_team_gender                                                   male
home_team_home_team_group                                                    None
home_team_country_id                                                           11
home_team_country_name                                                  Argentina
home_team_managers              [{'id': 5677, 'name': 'Lionel Sebastián Scalon...
away_team_away_team_id                                                        769
away_team_away_team_name                                                 Colombia
away_team_away_team_gender                                                   male
away_team_away_team_group                                                    None
away_team_country_id                                                           49
away_team_country_name                                                   Colombia
away_team_managers              [{'id': 5905, 'name': 'Néstor Gabriel Lorenzo'...
metadata_data_version                                                       1.1.0
metadata_shot_fidelity_version                                                  2
metadata_xy_fidelity_version                                                    2
competition_stage_id                                                           26
competition_stage_name                                                      Final
stadium_id                                                                   5337
stadium_name                                                    Hard Rock Stadium
stadium_country_id                                                            241
stadium_country_name                                     United States of America
referee_id                                                                   2638
referee_name                                                        Raphael Claus
referee_country_id                                                             31
referee_country_name                                                       Brazil
Name: 0, dtype: object

接下来，我们将加载其中一个 events JSON 文件，并向该 DataFrame 添加一个名为 match_id 的列

response = requests.get(
  "https://raw.githubusercontent.com/statsbomb/open-data/master/data/events/3943077.json"
)
events_df = pd.json_normalize(response.json(), sep='_')
events_df["match_id"] = 3943077

再次，让我们看一下第一行

with pd.option_context("display.max_rows", None):
    first_row = events_df.iloc[0]
    non_nan_columns = first_row[first_row.notna()].T
    display(non_nan_columns)

id                                   279b7d66-92b5-4daa-8ff6-cba8fce271d9
index                                                                   1
period                                                                  1
timestamp                                                    00:00:00.000
minute                                                                  0
second                                                                  0
possession                                                              1
duration                                                              0.0
type_id                                                                35
type_name                                                     Starting XI
possession_team_id                                                    779
possession_team_name                                            Argentina
play_pattern_id                                                         1
play_pattern_name                                            Regular Play
team_id                                                               779
team_name                                                       Argentina
tactics_formation                                                   442.0
tactics_lineup          [{'player': {'id': 6909, 'name': 'Damián Emili...
match_id                                                          3943077
Name: 0, dtype: object

查询 Pandas DataFrame

接下来，让我们看看如何使用 chDB 查询这些 DataFrame。我们将导入库

import chdb

我们可以使用 Python 表函数查询 Pandas DataFrame

SELECT *
FROM Python(<name-of-variable>)

因此，如果我们想列出 matches_df 中的列，我们可以编写以下内容

chdb.query("""
DESCRIBE Python(matches_df)
SETTINGS describe_compact_output=1
""", "DataFrame")

                              name    type
                       match_id   Int64
                     match_date  String
                       kick_off  String
                     home_score   Int64
                     away_score   Int64
                   match_status  String
               match_status_360  String
                   last_updated  String
               last_updated_360  String
                     match_week   Int64
    competition_competition_id   Int64
      competition_country_name  String
  competition_competition_name  String
              season_season_id   Int64
            season_season_name  String
        home_team_home_team_id   Int64
      home_team_home_team_name  String
    home_team_home_team_gender  String
     home_team_home_team_group  String
          home_team_country_id   Int64
        home_team_country_name  String
            home_team_managers  String
        away_team_away_team_id   Int64
      away_team_away_team_name  String
    away_team_away_team_gender  String
     away_team_away_team_group  String
          away_team_country_id   Int64
        away_team_country_name  String
            away_team_managers  String
         metadata_data_version  String
metadata_shot_fidelity_version  String
  metadata_xy_fidelity_version  String
          competition_stage_id   Int64
        competition_stage_name  String
                    stadium_id   Int64
                  stadium_name  String
            stadium_country_id   Int64
          stadium_country_name  String
                    referee_id   Int64
                  referee_name  String
            referee_country_id   Int64
          referee_country_name  String

然后，我们可以通过编写以下查询来找出哪些裁判执裁了多场比赛

chdb.query("""
SELECT referee_name, count() AS count
FROM Python(matches_df)
GROUP BY ALL
HAVING count > 1
ORDER BY count DESC
""", "DataFrame")

                    referee_name  count
César Arturo Ramos Palazuelos      3
             Maurizio Mariani      3
             Piero Maza Gomez      3
   Mario Alberto Escobar Toca      2
Wilmar Alexander Roldán Pérez      2
        Jesús Valenzuela Sáez      2
       Wilton Pereira Sampaio      2
                Darío Herrera      2
               Andrés Matonte      2
                Raphael Claus      2

现在，让我们探索 events_df。

chdb.query("""
SELECT pass_recipient_name, count()
FROM Python(events_df)
WHERE type_name = 'Pass' AND pass_recipient_name <> ''
GROUP BY ALL
ORDER BY count() DESC
LIMIT 10
""", "DataFrame")

               pass_recipient_name  count()
          Davinson Sánchez Mina       76
Ángel Fabián Di María Hernández       64
            Alexis Mac Allister       62
                 Enzo Fernandez       57
    James David Rodríguez Rubio       56
    Johan Andrés Mojica Palacio       55
         Rodrigo Javier De Paul       54
   Jefferson Andrés Lerma Solís       53
      Jhon Adolfo Arias Andrade       52
Carlos Eccehomo Cuesta Figueroa       50

连接 Pandas DataFrame

我们也可以在查询中将 DataFrame 连接在一起。例如，要获得比赛的概览，我们可以编写以下查询

chdb.query("""
SELECT home_team_home_team_name, away_team_away_team_name, home_score, away_score,
       countIf(type_name = 'Pass' AND possession_team_id=home_team_home_team_id) AS home_passes,
       countIf(type_name = 'Pass' AND possession_team_id=away_team_away_team_id) AS away_passes,
       countIf(type_name = 'Shot' AND possession_team_id=home_team_home_team_id) AS home_shots,
       countIf(type_name = 'Shot' AND possession_team_id=away_team_away_team_id) AS away_shots
FROM Python(matches_df) AS matches
JOIN Python(events_df) AS events ON events.match_id = matches.match_id
GROUP BY ALL
LIMIT 5
""", "DataFrame").iloc[0]

home_team_home_team_name    Argentina
away_team_away_team_name     Colombia
home_score                          1
away_score                          0
home_passes                       527
away_passes                       669
home_shots                         11
away_shots                         19
Name: 0, dtype: object

从 DataFrame 填充表

我们还可以从 DataFrame 创建和填充 ClickHouse 表。如果我们想在 chDB 中创建一个表，我们需要使用 Stateful Session API。

让我们导入 session 模块

from chdb import session as chs

初始化一个会话

sess = chs.Session()

接下来，我们将创建一个数据库

sess.query("CREATE DATABASE statsbomb")

然后，基于 events_df 创建一个 events 表

sess.query("""
CREATE TABLE statsbomb.events ORDER BY id AS
SELECT * 
FROM Python(events_df)
""")

然后我们可以运行返回顶级传球接收者的查询

sess.query("""
SELECT pass_recipient_name, count()
FROM statsbomb.events
WHERE type_name = 'Pass' AND pass_recipient_name <> ''
GROUP BY ALL
ORDER BY count() DESC
LIMIT 10
""", "DataFrame")

               pass_recipient_name  count()
          Davinson Sánchez Mina       76
Ángel Fabián Di María Hernández       64
            Alexis Mac Allister       62
                 Enzo Fernandez       57
    James David Rodríguez Rubio       56
    Johan Andrés Mojica Palacio       55
         Rodrigo Javier De Paul       54
   Jefferson Andrés Lerma Solís       53
      Jhon Adolfo Arias Andrade       52
Carlos Eccehomo Cuesta Figueroa       50

连接 Pandas DataFrame 和表

最后，我们还可以更新我们的连接查询，将 matches_df DataFrame 与 statsbomb.events 表连接起来

sess.query("""
SELECT home_team_home_team_name, away_team_away_team_name, home_score, away_score,
       countIf(type_name = 'Pass' AND possession_team_id=home_team_home_team_id) AS home_passes,
       countIf(type_name = 'Pass' AND possession_team_id=away_team_away_team_id) AS away_passes,
       countIf(type_name = 'Shot' AND possession_team_id=home_team_home_team_id) AS home_shots,
       countIf(type_name = 'Shot' AND possession_team_id=away_team_away_team_id) AS away_shots
FROM Python(matches_df) AS matches
JOIN statsbomb.events AS events ON events.match_id = matches.match_id
GROUP BY ALL
LIMIT 5
""", "DataFrame").iloc[0]

home_team_home_team_name    Argentina
away_team_away_team_name     Colombia
home_score                          1
away_score                          0
home_passes                       527
away_passes                       669
home_shots                         11
away_shots                         19
Name: 0, dtype: object

设置​

从 URL 创建 Pandas DataFrame​

查询 Pandas DataFrame​

连接 Pandas DataFrame​

从 DataFrame 填充表​

连接 Pandas DataFrame 和表​

设置

从 URL 创建 Pandas DataFrame

查询 Pandas DataFrame

连接 Pandas DataFrame

从 DataFrame 填充表

连接 Pandas DataFrame 和表