跳到主要内容

跳到主要内容

将 Apache Spark 与 ClickHouse 集成

Apache Spark Apache Spark™ 是一个多语言引擎，用于在单节点机器或集群上执行数据工程、数据科学和机器学习。

连接 Apache Spark 和 ClickHouse 主要有两种方式

Spark Connector - Spark 连接器实现了 DataSourceV2 并具有自己的 Catalog 管理。截至今日，这是集成 ClickHouse 和 Spark 的推荐方式。
Spark JDBC - 使用 JDBC 数据源集成 Spark 和 ClickHouse。

这两种解决方案都经过了成功测试，并且与各种 API 完全兼容，包括 Java、Scala、PySpark 和 Spark SQL。