DoubleCloud 即将停止运营。限时免费迁移服务,迁移到 ClickHouse。立即联系我们 ->->

博客 / 用户案例

Tekion 采用 ClickHouse Cloud 来提升应用性能和指标监控

author avatar
ClickHouse 团队
2024 年 6 月 26 日

Tekion 由前特斯拉首席信息官 Jay Vijayan 于 2016 年创立,并使用从大数据和人工智能到物联网等技术,为其汽车客户解决各种问题。Tekion

Tekion 于 2020 年推出了其经销商管理软件,汽车零售云 (ARC)。ARC 是一个端到端的云平台,旨在无缝连接整个汽车经销商的业务,为经销商和制造商带来了前所未有的简便性、效率和连接性。Tekion 平台与架构工程副总裁 Ved Surtani 解释说:“过去,经销商使用 100 多个点解决方案来运营其业务并不罕见。Tekion 将其缩减到只有四个。”

ClickHouse Cloud 彻底改变了游戏规则,Tekion 团队在他们的几个关键用例中享受了优势,包括优化、性能提升和成本效益。

Tekion 内部可观测性堆栈

Tekion 的业务依赖于一个内部构建的可观测性堆栈,其中包括应用性能监控 (APM) 和自定义指标分析。该堆栈对于 Tekion 在汽车行业的一系列卓越 SaaS 产品的快速执行至关重要 - 如果这些工具无法正常工作,工程师和数据科学家将无法有效地开发和发布新应用程序。以前运行在一个知名的搜索提供商上,随着数据量的增加,该堆栈变得不再高效、昂贵且难以维护。

Tekion 的 **数据平台 APM** 是一个内部应用程序性能监控 (APM) 平台,分析软件应用程序的性能以确保它们高效运行并满足性能目标:“通过使用自定义仪表板衡量我们自己的性能质量,我们利用了 ClickHouse 的功能来改善我们的决策过程,其效率和可扩展性正变得不可或缺”。另一个内部平台 **数据平台自定义指标** 允许用户、应用程序、作业和工具从各种来源发送指标并创建自定义指标。Tekion 可以捕获、跟踪、监控和报告性能或行为的独特方面,并识别异常或问题,以便采取适当的措施。

规模和成本方面的挑战促使寻找替代方案

随着 Tekion 的发展及其工程运营的扩展,其内部可观测性堆栈开始面临数据摄取速度和效率、查询性能以及不断上升的成本方面的挑战:“随着我们的数据持续扩展,我们现有技术的可扩展性、速度和成本效益方面的限制变得越来越明显,”Surtani 说。Tekion 考虑只存储汇总数据,假设这可以满足大多数用户需求。但是,无法深入到单个事务以进行调试仍然是一个持续的挑战:“以前,摄取原始记录并获取详细的事务信息的想法似乎很令人生畏。虽然通过投资大量资金来构建大型集群在理论上可以实现令人印象深刻的结果。但这种方法既不实用也不经济,”Surtani 解释道。

在之前的架构中,来自应用程序的数据流通过 Kafka 摄取,并通过自定义服务处理到数据存储中。这种方法有助于执行自定义 Spark 作业以发现复杂的模式和警报。虽然对分析有效,但缓慢的搜索性能和仪表板功能的限制阻碍了消费。

Tekion 评估了各种选项,包括 Delta Lake 和 HBase,以寻找更快的检索数据机制:“我们正在寻找一个解决方案,它可以快速摄取数据并让我们能够以更快的速度检索单个事务,”Surtani 说。他们发现了 ClickHouse:“我们看到了彻底改变我们的数据管理流程的潜力,”他补充道。

概念验证:开源还是 ClickHouse Cloud?

为了概念验证 (POC) 评估,Tekion 最初使用开源 ClickHouse,然后过渡到 ClickHouse Cloud。最初选择开源是 Tekion 标准做法的一部分,使团队能够在承诺基于云的解决方案之前评估性能和成本效益:“这种方法为迁移的好处提供了宝贵的见解,并包含了明智的决策,”Surtani 说。POC 揭示了令人兴奋的结果 - 它发现 ClickHouse 在处理大量数据方面更胜一筹:“我们意识到它有多好以及在基本 POC 期间的潜力,因此期望值很高,”Surtani 说,促使 Tekion 探索 ClickHouse Cloud。

无需影响性能或产生额外开销即可扩展集群的能力非常引人注目。虽然 Tekion 完全有能力独立管理基础设施,但团队决定将团队的精力集中在为客户开发产品上,并将维护工作留给 ClickHouse(通过 ClickHouse Cloud)。此外,Surtani 解释说,“ClickHouse Cloud 提供了开源路线之外的高级功能,例如动态扩展集群,无需手动索引,从而提高了运营效率和可扩展性。”最终,专家支持、高级功能和成本效益的结合使 ClickHouse Cloud 成为推动组织发展最佳选择。

“ClickHouse Cloud 能够以经济高效的方式超越性能目标。”

Ved Surtani,Tekion 平台与架构工程副总裁

Tekion 的 ClickHouse Cloud

Tekion 已成功将 ClickHouse Cloud 集成到上述两个平台。2023 年夏季,该系统处理了大约 200 多 TB 的数据,这个数字随着客户群的增长而持续增长。在 APM 解决方案中,ClickHouse Cloud 用于处理容器生成的应用程序指标。ClickHouse Cloud 简化了摄取过程,并支持指标和警报的计算,包括针对 Tekion 需求量身定制的自定义指标。Tekion 可以以更快的速度检索单个事务,全面进行调试,并实时分析数据。

此外,他们已开始将 ClickHouse Cloud 集成到自定义工作流程中,这些工作流程高度专业化,通常缺乏预定义的阈值。这些工作流程处理关键操作,快速检测和响应异常是目标。通过将这些工作流程过渡到 ClickHouse Cloud,开发人员可以直接摄取自定义指标,这意味着可以立即识别不规则和意外情况,以及更快的响应时间。“尽管涉及复杂性,但我们已迅速适应,过渡非常顺利。我们停用了 ATM,只存储一天的数据,”Surtani 解释道。

“ClickHouse 被证明是游戏规则的改变者,推动我们在管理数据基础设施方面提高效率和效益。”

Ved Surtani,Tekion 平台与架构工程副总裁

使用 ClickHouse 的主要优势

存储优化

ClickHouse 利用其领先的数据压缩功能,大幅减少了 Tekion 的存储需求。两个月的数据量已从 27TB 缩减至 2.5TB,存储量减少了 10 倍。

数据导入性能

现在,即使在每分钟 120 万条记录的峰值吞吐量下,Tekion 也可以使用 ClickHouse 无延迟地进行数据导入。他们消除了以前发生的事件,即使尽了最大努力,仍有大量事件无法成功处理或记录。更重要的是,所需的 Spark 资源减少了 25%,从而节省了大量成本。这意味着更快的作业执行时间,以及由于更有效地利用资源,能够使用相同的基础设施处理更大的数据集。

查询性能

ClickHouse 的性能允许即使对于大型数据集也能显著加快查询执行和数据检索,从而为用户提供真正实时的交互式体验。查询延迟下降了 10 倍以上,而回溯时间翻了一番 - 现在查询最多 14 天的数据只需要 500 毫秒,而在之前的设置中,查询需要 8 秒,然后在 7 天窗口后超时。用户现在可以查询更长的时间范围的数据,并实时分析原始数据,而无需依赖预先聚合的格式。这意味着更深入的见解,使 Tekion 能够适应不断变化的客户需求和市场趋势。

结论

优化可观测性数据堆栈是一个持续的过程,不断改进的文化是 Tekion 的 DNA。虽然团队最初将 APM 和指标迁移到 ClickHouse Cloud,但日志记录、审计报告和内部计划仪表板正在考虑作为未来整合的机会。Ved 总结道:“我们非常喜欢 ClickHouse,团队对支持评价很高。我们将继续合作。这是一项非常有趣的技术,它已经带来了巨大的改变,我们希望在未来更广泛地使用它。”

分享这篇文章

订阅我们的时事通讯

及时了解功能发布、产品路线图、支持和云服务信息!
正在加载表单...
关注我们
Twitter imageSlack imageGitHub image
Telegram imageMeetup imageRss image
©2024ClickHouse, Inc. 总部位于加利福尼亚州湾区和荷兰阿姆斯特丹。