博客 / 用户故事

幕后揭秘:ClickHouse 如何助力 Vimeo 大规模视频分析

author avatar
ClickHouse 团队
2024年8月16日 - 7 分钟阅读

近 20 年来,Vimeo 一直是数字视频领域的强大力量,改变了用户在线上传、分享和欣赏视频内容的方式。最初,Vimeo 只是一个面向普通用户和视频爱好者的托管平台,如今,该公司为数百万专业创作者和企业提供服务,提供用于视频制作、分发和盈利的高级工具。

Vimeo 以其简洁的用户界面和高质量的视频流而闻名,但在幕后,Vimeo 运营着庞大的后端系统,其特点是来自超过十亿个视频的海量数据。据 Vimeo 首席数据工程师 Zeev Feldbeine 称,该基础设施每天处理 200 亿个微事件——加载、播放、暂停、跳过——提供关于用户行为和视频表现的实时分析。

两年前,Zeev 领导了 Vimeo 数据架构的转型。在最近于纽约市举行的一次聚会上,他分享了他们采用 ClickHouse 的历程。结果令人印象深刻,查询性能、成本效率和整体系统可靠性都得到了巨大提升。

扩展难题

2021 年,Vimeo 现有的 OLTP 基础设施(基于 Apache HBase 和 Apache Phoenix 构建)难以跟上视频平台的快速增长。由于数据量达到 PB 级,并且每天产生数十亿个跨设备、位置和来源等多个维度的微事件,该系统一直受到查询性能缓慢和频繁宕机的困扰。

“那简直是一团糟,”Zeev 说。“大型查询无法运行。百分之十的用户超时。用户无法获得他们想要的数据或分析。”

遗留系统的高运营成本也变得难以为继。尽管在硬件和维护方面投入了大量资金,但该公司仍面临性能瓶颈,这损害了他们的扩展能力。正如 Zeev 解释的那样,“我们花了很多钱,拥有数量惊人的节点,但宕机事件仍然不断发生。”

Vimeo 数据需求的复杂性进一步加剧了这些问题,不同类型的视频都需要独特的分析。特别是直播视频,需要低延迟的实时数据处理,而现有基础设施无法满足这一需求。

“我们尝试进行横向扩展,但没有获得我们想要的结果,”Zeev 说。“我们知道最终我们必须做出改变,最终我们也确实这样做了。”

更好的数据解决方案

Zeev 和团队开始寻找能够满足其数据需求的长期解决方案。他们比较了三种数据库管理系统——Apache Druid、MemSQL 和 ClickHouse——以找到性能、可扩展性和成本效率的最佳组合。

经过全面的评估,综合考虑了查询性能、集成易用性和整体系统可靠性等因素后,ClickHouse 以其在处理大规模数据分析方面的闪电般速度和效率而著称,脱颖而出成为领先者。他们决定运行概念验证 (POC) 以全面测试 ClickHouse 的功能。

POC 阶段旨在模拟 Vimeo 的实际数据挑战。团队首先使用占其总数据 25% 的样本集对 ClickHouse 进行了压力测试,处理大量的视频分析,运行复杂的查询,并确保系统能够处理 Vimeo 的高并发需求。他们测试了各种场景,包括数据摄取、峰值负载下的查询性能以及模拟故障期间的系统稳定性。

“因为我们在使用 HBase 时遇到了太多宕机事件,所以我们想确保 ClickHouse 能够承受我们对其提出的任何要求,”Zeev 说。

POC 的结果非常积极。ClickHouse 不仅满足而且在几个关键领域超出了 Vimeo 的期望。查询性能提高了几个数量级,运行速度比以前快 10 倍。事实证明,该系统非常稳定,即使在重负载下也是如此,同时所需的服务器数量减少了四分之三,存储空间减少了三到五分之三。

“ClickHouse 远远胜过所有其他方案,”Zeev 说。确信 ClickHouse 能够改变他们的数据运营并应对不断增长的需求,他们准备好全面实施 ClickHouse。

Vimeo 的新数据架构

vimeo-diagram-v2.png

Vimeo 的新数据架构基于 ClickHouse 的列式存储格式构建,可以实现高效的数据压缩和快速的查询执行。该设置旨在处理高并发和海量数据,确保 Vimeo 的所有用户和内部 BI 团队都可以使用实时分析。

Zeev 和团队使用 ClickHouse 的 MergeTree 引擎来优化数据存储和检索,从而大大提高了复杂查询的性能。他们还实施了多层存储策略,使用 SSD 存储频繁访问的数据,使用 HDD 存储归档数据,从而提高了成本效率和速度。通过与 Apache Spark 集成,他们简化了数据摄取,使其更容易每天处理数十亿个微事件。

目前,Vimeo 正在 Google Cloud Platform 上以自管理的 Kubernetes 环境中部署 ClickHouse。这种设置提供了根据需求动态扩展资源的灵活性,从而保持高可用性和弹性。Zeev 和他的团队还使用 Velero 等开源工具实施了备份策略,而 ClickHouse 的复制功能则确保了跨分布式节点的数据一致性。

全面受益

切换到 ClickHouse 改变了 Vimeo 的数据运营,并为整个业务带来了巨大的好处。查询性能的大幅提升,数据处理时间从分钟缩短到秒,意味着 Vimeo 可以为内容创作者和企业提供实时分析和更好的用户体验。

新的架构还在基础设施方面带来了大量的成本节约。由于所需的资源大大减少,Vimeo 在保持高性能的同时降低了运营费用。ClickHouse 的稳定性消除了困扰旧系统的频繁宕机和超时问题,确保了对分析的持续可靠访问。

“与我们探索的其他解决方案以及我们以前使用的方案相比,ClickHouse 简直是遥遥领先,”Zeev 说。“它非常非常便宜,而且质量非常高。”

最后,ClickHouse 的可扩展性使 Vimeo 能够轻松规划和适应未来的增长。以低延迟处理各种复杂数据类型的能力意味着 Vimeo 的产品团队可以不断创新,而不会受到其数据基础设施的限制。这种灵活性对于满足客户不断变化的视频需求至关重要。

灯光,摄像,ClickHouse

凭借 ClickHouse 作为其数据运营的核心,Vimeo 处于有利地位,可以继续扩展其视频平台。通过改造其数据架构,他们不仅解决了关键的性能问题,还为创新和增长开辟了新的途径。

对于 Zeev 和他的团队来说,切换到 ClickHouse 带来了他们所需的稳定性、效率和可扩展性。“我觉得我可以成为 ClickHouse 的一名出色的推销员,”Zeev 笑着说。“这是我用过的最好的产品之一。”

要了解更多关于 Vimeo 历程的信息,请参阅 Vimeo 工程博客文章《ClickHouse is in the house: Insights gained and lessons learned from our long video analytics migration journey》

无论您是想提高性能、降低成本还是高效扩展业务,ClickHouse 都能为您提供改造数据运营所需的工具。加入我们不断壮大的开源社区,或免费试用 ClickHouse Cloud 30 天

分享这篇文章

订阅我们的新闻通讯

随时了解功能发布、产品路线图、支持和云服务信息!
正在加载表单...
关注我们
X imageSlack imageGitHub image
Telegram imageMeetup imageRss image
©2025ClickHouse, Inc. 总部位于加利福尼亚州湾区和荷兰阿姆斯特丹。