博客 / 公司与文化

ClickHouse 公司简介

author avatar
Alexey Milovidov
2021 年 9 月 20 日 - 分钟阅读

今天,我很高兴地宣布 ClickHouse Inc.,ClickHouse 的新家。开发团队已从 Yandex 迁至 ClickHouse Inc.,以继续构建最快(也是最棒的)分析型数据库管理系统。公司已获得由 Index Ventures 和 Benchmark 领投,Yandex N.V. 等参投的近 5000 万美元 A 轮融资。我与两位联合创始人 Yury IzrailevskyAaron Katz 共同创立了 ClickHouse Inc.。我将继续担任首席技术官 (CTO) 领导 ClickHouse 的开发,Yury 将负责产品和工程,Aaron 将担任 CEO。

ClickHouse 的历史

我在十多年前开始开发 ClickHouse,这从来都不是一件容易的事。ClickHouse 的想法源于我在 Yandex 担任实时 Web 分析系统开发人员期间。我的团队和我面临着多重数据处理挑战,这些挑战通常需要自定义数据结构和复杂的算法、创造性的解决方案和权衡、对领域、硬件和数学的深刻理解。这些年来,我经常在床上思考如何解决又一个数据处理挑战。我热爱数据和在极端约束下进行处理,您必须考虑字节和纳秒来节省 PB 级数据和秒。ClickHouse 团队也抱有这种热情:在我看来,这是 ClickHouse 成功的主要原因。

2009 年,我们启动了 ClickHouse 作为一个实验项目,以检验从非聚合数据实时生成分析报告是否可行的假设,这些非聚合数据也在不断实时添加。我们花了三年时间来证明这个假设,并在 2012 年 ClickHouse 首次在生产环境中启动。与以前使用的自定义数据结构不同,ClickHouse 更普遍地适用于作为数据库管理系统工作。几年后,我发现公司的大多数部门都在使用 ClickHouse,这让我感到好奇:也许 ClickHouse 太好了,不应该只在 Yandex 内部运行?然后在 2016 年,我们在 开源 中发布了它。

开源 ClickHouse

将 ClickHouse 开源也不是一个容易的决定,但现在我明白了:开源很难,但这是一个巨大的胜利。虽然维护一个流行的开源产品需要付出巨大的努力和责任,但对我们来说,收益大于所有成本。自从我们发布 ClickHouse 以来,它已在全球数千家公司的生产环境中部署,用于从农业到自动驾驶汽车的广泛用例。2019 年,我们花费了超过三分之一的时间在国外组织各种 ClickHouse 活动并在外部会议上发表演讲,我们很高兴在旅行限制有所缓解后再次与大家面对面交流。来自我们社区的反馈和贡献是无价的,我们在社区的帮助下提高了实施质量、功能完整性并做出产品决策。我们的主要重点之一是通过使源代码易于阅读和理解,并使流程易于遵循,从而使 ClickHouse 欢迎贡献者。对我来说,ClickHouse 是一个展示,每个人都可以从中学习数据处理的思想。

我喜欢将 ClickHouse 展示为软件工程中许多问题的答案。什么是更好的:向量化还是 JIT 编译?看看 ClickHouse;它两者都在使用。如何以安全的方式在现代 C++ 中编写代码?好的,看看 ClickHouse 中的测试基础设施。如何优化 memcpy 函数?将 Unix 时间戳转换为自定义时区日期的最快方法是什么?我可以就这些主题进行数小时的演讲,并且由于开源,每个人都可以阅读代码,运行 ClickHouse 并验证我们的主张。

技术优势

ClickHouse 最显著的优势是其极高的查询处理速度和数据存储效率。ClickHouse 性能的独特之处是什么?很难回答,因为没有单一的“银弹”。主要优势是对最极端生产工作负载细节的关注。我们从实际需求出发开发 ClickHouse。它的创建是为了解决 Metrica 的需求,Metrica 是世界上 最广泛 的 Web 分析服务之一。因此,ClickHouse 能够处理 100+ PB 的数据,每天插入超过 1000 亿条记录。早期的采用者之一 Cloudflare 使用 ClickHouse 处理互联网上大部分 HTTP 流量,每秒处理超过 1000 万条记录。作为 ClickHouse 开发人员,如果性能还有提升空间,我们就认为任务尚未完成。

查询处理性能不仅仅关乎速度。它开辟了新的可能性。在上一代数据仓库中,如果不进行预聚合,就无法运行交互式查询;或者在提供交互式查询的同时,无法实时插入新数据;或者无法仅存储所有数据。借助 ClickHouse,您可以根据需要保留所有记录,并跨数据进行交互式实时报告。在使用 ClickHouse 之前,很难想象分析数据处理可以如此简单高效:无需十几个预聚合和分层服务(例如 Druid),无需将大量数据存储在 RAM 中(例如 Elastic),也无需维护每日/每小时/每分钟表(例如 Hadoop、Spark)。

大多数其他数据库管理系统甚至不允许基准测试(通过臭名昭著的“DeWitt 条款”)。但我们不惧怕基准测试;我们 收集它们。ClickHouse 文档中有 链接 到来自各个领域的大小高达数 TB 的公开数据集。我们鼓励您尝试 ClickHouse,在您的工作负载上进行一些实验,并发现 ClickHouse 比其他产品更快。如果不是,我们鼓励您发布基准测试,我们将使 ClickHouse 变得更好!

最后,ClickHouse 从一开始就专门构建为:

  • 易于安装和使用。它可以在任何地方运行,从您的笔记本电脑到云端
  • 高度可靠,并可垂直和水平扩展
  • 提供具有许多实用且便捷扩展的 SQL
  • 与外部数据源和流集成

ClickHouse 从 Yandex 分拆

Yandex N.V. 是欧洲最大的互联网公司,拥有超过 14,000 名员工。他们开发搜索、广告和电子商务服务、出行技术和食品技术解决方案、自动驾驶汽车...以及拥有 15 名工程师团队的 ClickHouse。很难相信我们已经设法建立了一个世界一流的领先分析型数据库管理系统,团队如此之小,同时还利用了全球社区的力量。虽然这几乎不足以跟上开源产品的开发,但每个人都明白 ClickHouse 技术的潜力远远超过了这样一个小型团队。

我们决定整合资源:招募核心 ClickHouse 开发人员团队,引入由 Aaron Katz 领导的世界一流的业务团队和由 Yury Izrailevsky 领导的云工程团队,保持开源的力量,增加来自领先风险投资基金的投资,并成立一家 100% 专注于 ClickHouse 的国际公司。我很高兴地宣布 ClickHouse Inc. 成立。

下一步是什么?

公司喜欢 ClickHouse,因为它极大地提高了数据处理效率。但这主要关乎核心技术,即数据库服务器本身。我们希望使 ClickHouse 适合所有类型的公司和企业,而不仅仅是那些可以很好地管理其集群的精通技术的互联网公司。我们希望降低学习曲线,使 ClickHouse 符合企业标准,使 ClickHouse 服务能够以无服务器方式在云端即时可用,使自动扩展变得容易等等。

我们的使命是使 ClickHouse 成为分析型数据库管理系统的首选。每当您想到数据分析时,ClickHouse 都应该是显而易见的首选解决方案。我看到了许多公司已经从 ClickHouse 中受益,我非常渴望使其在世界范围内更加普及和普遍接受。现在我们拥有最好的工程师和最好的企业家,我们已为这一使命做好准备。

2021-09-20, Alexey Milovidov

分享这篇文章

订阅我们的新闻资讯

随时了解功能发布、产品路线图、支持和云服务!
正在加载表单...
关注我们
X imageSlack imageGitHub image
Telegram imageMeetup imageRss image