Tekion 由前特斯拉 CIO Jay Vijayan 于 2016 年创立,并采用从大数据和人工智能到物联网等技术,为他们的汽车客户解决各种问题。
Tekion 在 2020 年推出了他们的经销商管理软件 Automotive Retail Cloud (ARC)。ARC 是一个端到端的云平台,旨在无缝连接整个汽车经销商的业务,为经销商和制造商带来了全新的简洁性、效率和连接性。Tekion 平台与架构工程副总裁 Ved Surtani 解释说:“过去,经销商使用 100 多个点解决方案来运营业务的情况并不少见。Tekion 将其减少到只有四个。”
ClickHouse Cloud 已经成为一个颠覆者,Tekion 团队在他们的几个关键用例中享受到了优势,包括优化、性能提升和成本效益。
Tekion 内部可观测性堆栈
Tekion 的业务依赖于内部构建的可观测性堆栈,其中包括应用程序性能监控 (APM) 和自定义指标分析。这个堆栈对于快速执行 Tekion 为汽车行业提供的各种 SaaS 产品至关重要——如果这些工具无法工作,工程师和数据科学家将无法有效地开发和交付新的应用程序。此前,该堆栈在一个知名的搜索提供商上运行,但随着数据量的增加,其性能下降、成本昂贵且难以维护。
Tekion 的 Dataplatform APM 是一个用于应用程序性能监控 (APM) 的内部平台,用于分析软件应用程序的性能,以确保它们高效运行并达到性能目标:“通过定制仪表板衡量我们自身性能的质量,我们利用了 ClickHouse 的功能来改进我们的决策过程,其效率和可扩展性正变得不可或缺”。另一个内部平台 Dataplatform Custom Metrics 允许用户、应用程序、作业和工具从不同的来源发送指标并创建自定义指标。Tekion 可以捕获、跟踪、监控和报告性能或行为的独特方面,并识别异常或问题,以便采取适当的措施。
规模和成本方面的挑战促使寻找替代方案
随着 Tekion 的发展和工程运营的扩展,其内部可观测性堆栈开始面临摄取速度和效率、查询性能以及成本螺旋上升等方面的挑战:“随着我们的数据不断扩展,现有技术在可扩展性、速度和成本效益方面的局限性变得越来越明显,”Surtani 说。Tekion 曾考虑仅存储聚合数据,假设这可以满足大多数用户需求。然而,出于调试目的而无法深入研究单个事务仍然是一个持续存在的挑战:“以前,摄取原始记录并获得详细的事务信息的想法似乎令人望而生畏。虽然理论上可以通过投入大量资金构建大型集群来实现令人印象深刻的结果。但这种方法既不实用,在财务上也不可持续,”Surtani 解释说。
在之前的架构中,来自应用程序的数据流通过 Kafka 摄取,并通过自定义服务处理到数据存储中。这种方法有助于执行自定义 Spark 作业,以发现复杂的模式和警报。虽然这种方法对于分析有效,但消费受到搜索性能缓慢和仪表板功能受限的阻碍。
Tekion 评估了各种方案,包括 Delta Lake 和 HBase,以寻找更快的数据检索机制:“我们正在寻找一种既能快速摄取数据,又能让我们以更快的速度检索单个事务的解决方案,”Surtani 说。他们找到了 ClickHouse:“我们看到了彻底改变我们数据管理流程的潜力,”他补充道。
概念验证:开源还是 ClickHouse Cloud?
在概念验证 (POC) 评估中,Tekion 首先从开源 ClickHouse 开始,然后过渡到 ClickHouse Cloud。最初选择开源是 Tekion 的标准做法的一部分,使团队能够在承诺采用基于云的解决方案之前评估性能和成本效益:“这种方法为迁移的好处提供了有价值的见解,并融入了明智的决策,”Surtani 说。POC 发现了令人兴奋的结果——它发现 ClickHouse 在处理大量数据方面非常出色:“我们意识到它有多好以及在基本 POC 期间的潜力,因此期望很高,”Surtani 说,这促使 Tekion 探索 ClickHouse Cloud。
在不影响性能或产生额外开销的情况下扩展集群的能力非常引人注目。虽然 Tekion 完全有能力独立管理基础设施,但团队决定将团队精力集中在为客户进行产品开发上,将维护工作留给 ClickHouse(通过 ClickHouse Cloud)。此外,Surtani 解释说,“ClickHouse Cloud 提供了优于开源路线的高级功能,例如动态扩展集群,无需手动索引,从而提高了运营效率和可扩展性。” 最终,专家支持、高级功能和成本效益的结合使 ClickHouse Cloud 成为推动组织前进的最佳选择。
"ClickHouse Cloud 提供了以经济高效的方式超越性能目标的能力。"
Ved Surtani,Tekion 平台与架构工程副总裁
Tekion 的 ClickHouse Cloud
Tekion 已成功将 ClickHouse Cloud 集成到上述两个平台中。在 2023 年夏季,该系统处理了大约 200+ TB 的数据,这个数字随着客户群的增长而持续增长。在 APM 解决方案中,ClickHouse Cloud 用于处理容器生成的应用程序指标。ClickHouse Cloud 简化了摄取过程,并支持指标和警报的计算,包括为 Tekion 需求量身定制的自定义指标。Tekion 可以更快地检索单个事务,全面调试并实时分析数据。
此外,他们已开始将 ClickHouse Cloud 集成到自定义工作流程中,这些工作流程高度专业化,并且通常缺少预定义的阈值。这些工作流程处理关键操作,其目标是快速检测和响应异常。通过将这些工作流程过渡到 ClickHouse Cloud,开发人员可以直接摄取自定义指标,这意味着可以及时识别违规行为和意外事件,并缩短响应时间。“尽管涉及到复杂性,但我们已经迅速适应,过渡也很顺利。我们停用了 ATM 以仅存储一天的数据,”Surtani 解释说。
"事实证明,ClickHouse 是一项颠覆性技术,它推动我们在管理数据基础设施方面实现更高的效率和效力。"
Ved Surtani,Tekion 平台与架构工程副总裁
使用 ClickHouse 的主要优势
存储优化
由于 ClickHouse 市场领先的数据压缩功能,它大幅降低了 Tekion 的存储需求。两个月期间的数据大小已从 27TB 减少到仅 2.5TB——存储空间减少了 10 倍。
摄取性能
现在,即使在 ClickHouse 每分钟 120 万条记录的峰值吞吐量期间,Tekion 也可以无延迟地摄取数据。他们消除了以前尽管尽了最大努力,但仍有大量事件未成功处理或记录的情况。更重要的是,所需的 Spark 资源减少了 25%,从而节省了大量成本。这意味着更快的作业执行时间,以及由于更有效地利用资源,能够使用相同的基础设施处理更大的数据集。
查询性能
ClickHouse 的性能允许更快地执行查询和检索数据,即使对于大型数据集也是如此,从而为用户带来真正的实时交互体验。查询延迟降低了 10 倍以上,而回溯时间增加了一倍——现在查询最多 14 天的数据时只需 500 毫秒,而在之前的设置中,查询需要 8 秒,然后在 7 天窗口后超时。用户现在可以查询更长时间范围内的数据,并实时分析原始数据,而不是依赖预聚合格式。这意味着更深入的见解,使 Tekion 能够适应不断变化的客户需求和市场趋势。
结论
优化可观测性数据堆栈是一个持续的过程,持续改进的文化已融入 Tekion 的 DNA。虽然团队首先将 APM 和指标迁移到 ClickHouse Cloud,但日志记录、审计报告和内部计划仪表板也在考虑之中,以便在未来有机会进行整合。Ved 最后总结道:“我们真的很喜欢 ClickHouse,团队对支持的评价也很高。我们将继续合作。这是一项非常有趣的技术,它已经产生了巨大的变化,未来我们希望更广泛地使用它。”