教程和示例数据集
我们提供了大量资源来帮助您入门并学习 ClickHouse 的工作原理
- 如果您需要启动并运行 ClickHouse,请查看我们的 快速入门
- 《ClickHouse 教程》分析了纽约市出租车行程的数据集
此外,示例数据集提供了使用 ClickHouse 的绝佳体验,学习重要的技术和技巧,并了解如何利用 ClickHouse 的众多强大功能。示例数据集包括
| 页面 | 描述 |
|---|---|
| 亚马逊客户评论 | 超过 1.5 亿条亚马逊产品客户评论 |
| AMPLab 大数据基准测试 | 用于比较数据仓库解决方案性能的基准数据集。 |
| 使用 ClickHouse 分析 Stack Overflow 数据 | 使用 ClickHouse 分析 Stack Overflow 数据 |
| 匿名网络分析 | 包含匿名网络分析数据的两个表的数据集,包含点击和访问 |
| 布朗大学基准测试 | 用于机器生成日志数据的新分析基准测试 |
| COVID-19 公开数据 | COVID-19 公开数据是一个大型的、开源的 COVID-19 流行病学数据数据库,以及相关因素,如人口统计、经济和政府应对措施 |
| dbpedia 数据集 | 包含来自维基百科的 100 万篇文章及其向量嵌入的数据集 |
| 环境传感器数据 | 来自 Sensor.Community 的超过 200 亿条记录的数据,这是一个由贡献者驱动的全球传感器网络,用于创建开放环境数据。 |
| Foursquare 地点 | 包含有关地图上地点信息的 1 亿多条记录的数据集,例如商店、餐馆、公园、游乐场和纪念碑。 |
| 使用蜂窝塔数据集的地理数据 | 学习如何将 OpenCelliD 数据加载到 ClickHouse 中,将 Apache Superset 连接到 ClickHouse 并基于数据构建仪表板 |
| GitHub 事件数据集 | 包含从 2011 年到 2020 年 12 月 6 日 GitHub 上所有事件的数据集,大小为 31 亿条记录。 |
| Hacker News 数据集 | 包含 2800 万行 Hacker News 数据的数据集。 |
| Hacker News 向量搜索数据集 | 包含 2800 多万 Hacker News 帖子及其向量嵌入的数据集 |
| LAION 5B 数据集 | 包含来自 LAION 5B 数据集的 1 亿个向量的数据集 |
| Laion-400M 数据集 | 包含 4 亿张带有英文图像标题的图像的数据集 |
| 纽约公共图书馆“菜单上有什么?”数据集 | 包含有关酒店、餐馆和咖啡馆菜单的历史数据的 130 万条记录,以及菜肴及其价格。 |
| 纽约出租车数据 | 自 2009 年以来,纽约市出发的出租车和网约车(Uber、Lyft 等)行程的数十亿条数据 |
| NOAA 全球历史气候网络 | 过去 120 年的气候数据的 25 亿行 |
| 纽约警察局投诉数据 | 分 5 个步骤导入和查询制表符分隔值数据 |
| OnTime | 包含航空公司航班准点性能的数据集 |
| 星型模式基准测试 (SSB, 2009) | 星型模式基准测试 (SSB) 数据集和查询 |
| 台湾历史天气数据集 | 过去 128 年的 1.31 亿条天气观测数据 |
| Criteo 的十亿级点击日志 | Criteo 的十亿级点击日志 |
| 英国房地产价格数据集 | 学习如何使用投影来提高您经常运行的查询的性能,使用英国房地产数据集,其中包含有关英格兰和威尔士房地产价格的数据 |
| TPC-DS (2012) | TPC-DS 基准数据集和查询。 |
| TPC-H (1999) | TPC-H 基准数据集和查询。 |
| WikiStat | 探索包含 0.5 万亿条记录的 WikiStat 数据集。 |
| 使用 GitHub 数据在 ClickHouse 中编写查询 | 包含 ClickHouse 仓库的所有提交和更改的数据集 |
| YouTube 不喜欢数据集 | YouTube 视频的不喜欢集合。 |