Tekion 由前特斯拉 CIO Jay Vijayan 于 2016 年创立,利用从大数据和人工智能到物联网等多种技术,Tekion 为其汽车客户解决各种问题。
Tekion 于 2020 年推出了其经销商管理软件 Automotive Retail Cloud (ARC)。ARC 作为一个端到端的云平台,旨在无缝连接整个汽车经销商业务,为经销商和制造商带来了前所未有的简便、高效和互联性。Tekion 平台和架构工程副总裁 Ved Surtani 解释道:“过去,经销商经常使用超过 100 种点解决方案来运营其业务。Tekion 将其减少到只有四种。”
ClickHouse Cloud 彻底改变了游戏规则,Tekion 团队在几个关键用例中获得了优化、性能提升和成本效率等优势。
Tekion 内部可观测性堆栈
Tekion 的业务依赖于其内部构建的可观测性堆栈,其中包括应用程序性能监控 (APM) 和自定义指标分析。该堆栈对于 Tekion 在汽车行业的一系列卓越 SaaS 产品上的快速执行至关重要 - 如果这些工具无法正常工作,工程师和数据科学家将无法有效地开发和发布新应用。此前,该堆栈运行在一个知名搜索提供商上,随着数据量的增加,其性能下降、成本高昂且难以维护。
Tekion 的 **Dataplatform APM** 是一个用于应用程序性能监控 (APM) 的内部平台,分析软件应用程序的性能以确保它们高效运行并满足性能目标:“通过使用自定义仪表板来衡量我们自身性能的质量,我们利用了 ClickHouse 的功能来改进决策过程,其效率和可扩展性变得不可或缺”。另一个内部平台 **Dataplatform Custom Metrics** 允许用户、应用、作业和工具从各种来源发送指标并创建自定义指标。Tekion 可以捕获、跟踪、监控和报告性能或行为的独特方面,并识别异常或问题,以便采取适当的措施。
规模和成本方面的挑战促使寻找替代方案
随着 Tekion 的发展和工程运营的扩展,其内部可观测性堆栈开始面临摄取速度和效率、查询性能以及成本不断上升的挑战:“随着我们的数据不断扩展,我们现有技术的可扩展性、速度和成本效益方面的局限性变得越来越明显,”Surtani 说。Tekion 考虑仅存储聚合数据,假设这可以满足大多数用户需求。然而,无法深入了解单个事务进行调试仍然是一个持续的挑战:“以前,摄取原始记录并获取详细的事务信息似乎令人望而生畏。虽然理论上可以通过投入大量资金来构建大型集群以实现令人印象深刻的结果,但这种方法既不实际也不经济,”Surtani 解释说。
在之前的架构中,来自应用程序的数据流通过 Kafka 摄取并通过自定义服务处理到数据存储中。这种方法有助于执行自定义 Spark 作业以发现复杂的模式和警报。虽然这对于分析有效,但缓慢的搜索性能和仪表板功能的限制阻碍了消费。
Tekion 评估了各种选项,包括 Delta Lake 和 HBase,以寻找更快的數據检索机制:“我们正在寻找一种能够快速摄取数据,并允许我们以更快速度检索单个事务的解决方案,”Surtani 说。他们找到了 ClickHouse:“我们看到了它彻底改变数据管理流程的潜力,”他补充道。
概念验证:开源还是 ClickHouse Cloud?
为了进行概念验证 (POC) 评估,Tekion 从开源 ClickHouse 开始,然后过渡到 ClickHouse Cloud。在 Tekion,选择最初使用开源是标准做法的一部分,使团队能够在承诺使用基于云的解决方案之前评估性能和成本效益:“这种方法提供了有关迁移益处的宝贵见解,并纳入了明智的决策,”Surtani 说。POC 揭示了令人兴奋的结果 - 它发现 ClickHouse 在处理大量数据方面更胜一筹:“我们认识到它有多好以及在基本 POC 期间的潜力,因此期望很高,”Surtani 说,这促使 Tekion 探索 ClickHouse Cloud。
无需影响性能或产生额外开销即可扩展集群的能力非常吸引人。虽然 Tekion 完全有能力独立管理基础设施,但团队决定将团队的精力集中在为客户开发产品上,将维护工作留给 ClickHouse(通过 ClickHouse Cloud)。此外,Surtani 解释说,“ClickHouse Cloud 提供了开源路线之外的优质功能,例如动态扩展集群,无需手动索引,从而提高了运营效率和可扩展性。”最终,专家支持、高级功能和成本效益的结合使 ClickHouse Cloud 成为推动组织前进的最佳选择。
"ClickHouse Cloud 能够以经济高效的方式超越性能目标."
Ved Surtani,Tekion 平台和架构工程副总裁
Tekion 上的 ClickHouse Cloud
Tekion 已成功将 ClickHouse Cloud 集成到上面提到的两个平台中。在 2023 年夏季,该系统处理了大约 200 多 TB 的数据,这一数字随着客户群的增长而不断增长。在 APM 解决方案中,ClickHouse Cloud 用于处理容器生成的应用程序指标。ClickHouse Cloud 简化了摄取过程,并能够计算指标和警报,包括针对 Tekion 需求量身定制的自定义指标。Tekion 可以以更快的速度检索单个事务,全面调试并实时分析数据。
此外,他们还开始将 ClickHouse Cloud 集成到自定义工作流中,这些工作流高度专业化,并且通常缺乏预定义的阈值。这些工作流处理关键操作,其目标是快速检测和响应异常。通过将这些工作流迁移到 ClickHouse Cloud,开发人员可以直接摄取自定义指标,这意味着可以快速识别不规则和意外事件,以及更快的响应时间。“尽管涉及到复杂性,但我们已迅速适应,过渡非常顺利。我们停用了 ATM 以仅存储一天的数据,”Surtani 解释说。
"ClickHouse 已经被证明是游戏规则的改变者,推动我们朝着更高效、更有效地管理数据基础设施的方向迈进."
Ved Surtani,Tekion 平台和架构工程副总裁
使用 ClickHouse 的主要优势
存储优化
由于 ClickHouse 拥有市场领先的数据压缩功能,因此它大幅减少了 Tekion 的存储需求。两个月的數據大小已从 27TB 减少到仅 2.5TB - 存储量减少了 10 倍。
摄取性能
现在,即使在 ClickHouse 每分钟处理 120 万条记录的峰值吞吐量下,Tekion 也能无延迟地进行数据摄取。他们消除了以前存在的由于各种原因导致大量事件无法成功处理或记录的情况,即使尽了最大努力也无法解决。更重要的是,所需的 Spark 资源减少了 25%,从而大幅节省了成本。这意味着作业执行时间更快,并且由于更有效地利用资源,能够使用相同的基础设施处理更大的数据集。
查询性能
ClickHouse 的性能允许即使对于大型数据集也能够以显著更快的速度执行查询并检索数据,从而为用户提供真正的实时交互体验。查询延迟下降了 10 倍以上,同时回溯时间翻倍 - 现在在查询最多 14 天的数据时,查询时间为 500 毫秒,而在之前的设置中,查询需要 8 秒,并且在 7 天的窗口后会超时。用户现在可以查询更长时间范围内的数据,并实时分析原始数据,而不必依赖于预先聚合的格式。这意味着更深入的洞察力,使 Tekion 能够适应不断变化的客户需求和市场趋势。
结论
优化可观测性数据栈是一个持续的旅程,持续改进的文化是 Tekion 的 DNA。虽然团队从将 APM 和指标迁移到 ClickHouse Cloud 开始,但日志记录、审计报告和内部计划仪表板正在考虑中,以便将来有机会进行整合。Ved 最后总结道:“我们真的很喜欢 ClickHouse,团队对支持评价很高。我们将继续合作。这是一项非常有趣的技术,它已经带来了巨大的改变,我们希望在将来更广泛地使用它。”