DoubleCloud 即将停止运营。迁移至 ClickHouse 并享受限时免费迁移服务。立即联系我们 ->->

博客 / 公司与文化

Introducing ClickHouse, Inc.

author avatar
Alexey Milovidov
2021年9月20日

今天,我很高兴地宣布 **ClickHouse Inc.**,ClickHouse 的新家。开发团队已从 Yandex 迁移,并加入 ClickHouse Inc.,继续构建最快(也是最棒的)分析型数据库管理系统。该公司已获得近 5000 万美元的 A 轮融资,由 Index Ventures 和 Benchmark 领投,Yandex N.V. 等参投。我和两位联合创始人,Yury IzrailevskyAaron Katz,共同创建了 ClickHouse, Inc.。我将继续担任首席技术官 (CTO),领导 ClickHouse 的开发工作;Yury 将负责产品和工程;Aaron 将担任首席执行官。

ClickHouse 的历史

我十多年前开始开发 ClickHouse,这绝非一帆风顺。ClickHouse 的想法诞生于我在 Yandex 担任实时网络分析系统开发人员期间。我和我的团队面临着诸多数据处理挑战,这些挑战常常需要自定义数据结构和复杂的算法、创造性的解决方案和权衡、对领域、硬件和数学的深刻理解。所有这些年来,我常常带着对如何解决下一个数据处理挑战的无尽思考入睡。我热爱数据,并喜欢在极端限制条件下进行处理,在这些条件下,你必须考虑字节和纳秒才能节省 PB 级数据和秒级时间。ClickHouse 团队也分享着这种热情:在我看来,这是 ClickHouse 成功的主要原因。

2009 年,我们启动了 ClickHouse 作为一项实验项目,以验证从非聚合数据(也同时实时不断添加)中实时生成分析报告的可行性。花了三年时间才证明了这一假设,并且 ClickHouse 于 2012 年首次投入生产。与之前使用的自定义数据结构不同,ClickHouse 能够更广泛地用作数据库管理系统。几年后,我发现公司的大多数部门都在使用 ClickHouse,这让我不禁想:也许 ClickHouse 太优秀了,不应该只在 Yandex 内部运行?然后,我们在 2016 年将其开源至 GitHub

ClickHouse 开源

将 ClickHouse 开源也不是一个容易的决定,但现在我看到了:开源很难,但却是巨大的胜利。虽然维护一个流行的开源产品需要付出巨大的努力和责任,但对我们来说,好处大于所有成本。自从我们发布 ClickHouse 以来,它已在全球数千家公司的生产环境中部署,用于广泛的用例,从农业到自动驾驶汽车。2019 年,我们有超过三分之一的时间在国外组织各种 ClickHouse 活动并在外部会议上发表演讲,我们很高兴在旅行限制放宽后再次与大家见面。来自我们社区的反馈和贡献是无价的,我们借助社区的帮助提高了实现的质量、功能的完整性和产品的决策。我们的主要关注点之一是通过使源代码易于阅读和理解,并使流程易于遵循,从而使 ClickHouse 对贡献者更有吸引力。对我来说,ClickHouse 是一个展示,让每个人都能学习数据处理中的思想。

我喜欢将 ClickHouse 视为软件工程中许多问题的答案。哪种更好:向量化还是 JIT 编译?看看 ClickHouse;它同时使用了这两种方法。如何在现代 C++ 中以安全的方式编写代码?好的,看看 ClickHouse 中的测试基础设施。如何优化 memcpy 函数?在自定义时区中将 Unix 时间戳转换为日期的最快方法是什么?我可以就这些主题进行数小时的演讲,并且由于开源,每个人都可以阅读代码、运行 ClickHouse 并验证我们的说法。

技术优势

ClickHouse 最显著的优势在于其极高的查询处理速度和数据存储效率。ClickHouse 性能的独特之处在哪里?这很难回答,因为没有单一的“银弹”。主要优势在于关注最极端生产工作负载的细节。我们根据实际需求开发 ClickHouse。它旨在满足 Metrica 的需求,Metrica 是世界上最广泛使用的网络分析服务之一。因此,ClickHouse 能够处理 100+ PB 的数据,每天插入超过 1000 亿条记录。早期采用者之一 Cloudflare 使用 ClickHouse 处理互联网上很大一部分的 HTTP 流量,每秒处理 1000 万条以上记录。作为 ClickHouse 开发人员,如果还有改进性能的空间,我们就不会认为任务已经完成。

查询处理性能不仅仅是速度。它打开了新的可能性。在上一代数据仓库中,您无法在没有预聚合的情况下运行交互式查询;或者您无法在提供交互式查询的同时实时插入新数据;或者您根本无法存储所有数据。使用 ClickHouse,您可以根据需要保留所有记录,并在数据中进行交互式实时报告。在使用 ClickHouse 之前,很难想象分析数据处理可以如此简单高效:无需十几个预聚合和分层服务(例如 Druid),无需将大量数据存储在 RAM 中(例如 Elastic),也无需维护每日/每小时/每分钟的表(例如 Hadoop、Spark)。

大多数其他数据库管理系统甚至不允许基准测试(通过臭名昭著的“DeWitt 子句”)。但我们不怕基准测试;我们收集它们。ClickHouse 文档包含指向来自各个领域的公开可用数据集的链接,其大小可达多个 TB。我们鼓励您尝试 ClickHouse,对您的工作负载进行一些实验,并发现 ClickHouse 比其他数据库更快。如果没有,我们鼓励您发布基准测试结果,我们将改进 ClickHouse!

最后,ClickHouse 从一开始就被专门设计用于

  • 易于安装和使用。它可以在任何地方运行,从您的笔记本电脑到云端
  • 高度可靠,并且可以垂直和水平扩展
  • 提供带有许多实用和方便扩展的 SQL
  • 与外部数据源和流集成

ClickHouse 从 Yandex 分拆

Yandex N.V. 是欧洲最大的互联网公司,拥有超过 14,000 名员工。他们开发搜索、广告和电子商务服务、网约车和外卖解决方案、自动驾驶汽车……以及由 15 位工程师组成的 ClickHouse 团队。很难相信,我们能够凭借如此小的团队,利用全球社区的力量,构建出一个世界一流的领先分析型数据库管理系统 (DBMS)。虽然这仅仅足以跟上开源产品的开发步伐,但每个人都明白,ClickHouse 技术的潜力远远超出了这样一个小型团队的能力。

我们决定整合资源:汇聚核心 ClickHouse 开发团队,引入由Aaron Katz领导的世界级业务团队和由Yury Izrailevsky领导的云工程团队,保持开源的力量,获得领先风险投资基金的投资,并打造一家 100% 专注于 ClickHouse 的国际公司。我非常高兴地宣布 ClickHouse, Inc. 的成立。

接下来是什么?

企业喜欢 ClickHouse,因为它极大地提高了数据处理效率。但这主要关乎核心技术,即数据库服务器本身。我们希望让 ClickHouse 适用于各种公司和企业,而不仅仅是那些精通技术的互联网公司,这些公司可以轻松管理自己的集群。我们希望降低学习曲线,使 ClickHouse 符合企业标准,使 ClickHouse 服务能够以无服务器的方式在云端即时可用,使自动扩展变得简单,以及更多其他功能。

我们的使命是使 ClickHouse 成为分析型数据库管理系统的首选。无论何时您想到数据分析,ClickHouse 都应该是显而易见的最佳解决方案。我看到了许多公司已经从 ClickHouse 中获益,我非常渴望使其更广泛地传播并得到全球的普遍认可。现在,我们拥有最优秀的工程师和最优秀的企业家,我们已准备好迎接这项使命。

2021-09-20,Alexey Milovidov

分享此帖子

订阅我们的时事通讯

随时了解功能发布、产品路线图、支持和云产品信息!
加载表单…
关注我们
Twitter imageSlack imageGitHub image
Telegram imageMeetup imageRss image