我们很高兴地宣布,ClickHouse 的第一篇研究论文 已被接受,现在已发表 在 VLDB 上。
VLDB——国际超大型数据库大会——被广泛认为是数据管理领域领先的会议之一。在数百份投稿中,VLDB 的接受率通常为~20%。
今年,VLDB 2024 在中国广州举行,标志着该大会50 周年,使其成为运行时间最长的数据管理会议之一。
该大会以 250 篇论文的发表和 10 个配套研讨会为特色,展示了最新的研究和行业趋势。
今年的主题是机器学习,各种形式的机器学习论文占据了主导地位,但也出现了许多关于核心数据库领域的论文,例如查询引擎、存储和数据库理论。
ClickHouse 论文的抢先看
我们的出版物是数月来跨职能团队努力的成果,旨在为读者提供 ClickHouse 最有趣架构和系统设计组件的简明描述,这些组件使它如此之快。现在,它第一次面世。
在本文中,您将了解
ClickHouse 的历史
本文中描述的主要功能何时引入 ClickHouse,以及未来计划推出哪些功能和增强功能?
ClickHouse 的架构
层、组件和执行模式。
ClickHouse 的存储层
磁盘格式、数据修剪技术、合并时数据转换、更新和删除、幂等插入、数据复制和 ACID 兼容性。
ClickHouse 的查询处理层
SIMD 并行化、多核并行化、多节点并行化和性能优化技术。
ClickHouse 的集成层
对 90 多种文件格式和 50 多种外部系统集成的原生支持。
基准测试
ClickHouse 与其他经常用于分析的数据库的性能比较。注意:越低越好。
ClickHouse 在 VLDB 2024 上
论文发表
我们的首席技术官兼 ClickHouse 的创始人 Alexey Milovidov 上周在广州发表了这篇论文(幻灯片在此),之后进行了问答环节(很快就结束了!)。您可以在此处观看录制的演示
海报发表
除了论文发表外,VLDB 接受论文的作者还被要求进行海报 发表。
额外的小组会议演讲
幸运的是,我们在 VLDB 前几天还举办了ClickHouse 广州用户组会议。在这次会议上,我们发表了 Alexey 在会议上的演讲的扩展版本(幻灯片在此)
从海岸到海岸——我们第一篇研究论文的旅程
我们以一个额外部分作为结尾,供对我们第一篇研究论文的背景故事感到好奇的读者阅读。
ClickHouse 于 2016 年开源后,其受欢迎程度不断提高,开发速度也随之加快。在过去的八年中,ClickHouse 团队一直专注于构建世界上最快的分析数据库,因此没有时间发表关于 ClickHouse 的学术论文。
然而,在 2023 年 10 月,ClickHouse 公司在法国里维埃拉壮丽的地中海海岸举行的一次非正式会议上,我们的产品和营销副总裁 Tanya Bragin 提出了一个想法,即最终撰写一篇关于 ClickHouse 的基础论文,并将其提交给今年在广东省南海北岸的中国广州举行的 VLDB 大会。
我们迅速组建了一个小型作者团队,虽然我们中的一些人已经在大学获得博士学位时撰写过研究论文,但其他人则是新手。一个密集的写作过程于 2023 年 11 月启动,几乎每天都会进行状态电话会议,因为论文作者居住在不同的地点。我们于 2024 年 4 月提交了最终版本。
总结
我们上周玩得很开心!除了享用美味的粤菜,ClickHouse 团队上周还参加了在广州举行的 50 周年纪念活动 VLDB 2024 大会,我们的首席技术官兼 ClickHouse 的创始人 Alexey Milovidov 自豪地在会上向科学界展示了 ClickHouse 的第一篇研究论文。
希望您喜欢阅读这篇论文和观看 Alexey 演示的录音。我们很乐意听听您的想法。
最后,为了方便起见,这里列出了本文中提到的论文和所有配套材料的链接