自 2015 年以来,Cognitiv 一直使用深度学习来优化广告机会的实时竞价。其深度学习广告平台每秒处理数百万次机会。随着网页加载和广告位可用,Cognitiv 的算法会探索这些机会并代表客户出价,根据 KPI 优化效果。
Cognitiv 成功的核心是为其竞价算法提供支持的复杂机器学习模型。这些模型依赖于海量数据,必须对其进行有效管理、处理和分析,以便 Cognitiv 的数据团队能够快速迭代。
工程师 Jason Ruckman 说:“任何做过机器学习的人都会告诉你,数据是模型最重要的部分。架构是一回事。但真正重要的是你的数据。”
Cognitiv 改变了其数据管理方法,集成了 ClickHouse,以努力提高性能并简化操作。该实施不仅使 Cognitiv 能够轻松处理其海量数据,还使他们的数据团队能够开发更高级的机器学习模型,巩固了该公司在程序化广告购买领域作为领导者和创新者的地位。
更高效的离线特征存储
当有人访问网站时,像 Cognitiv 这样的平台会立即分析数据,以确定要展示的最佳广告,使用复杂的算法和机器学习来优化实时定位和竞价。训练这些模型需要巨大的计算能力以及快速有效地处理和分析大量数据的能力。
Jason 于 2021 年加入 Cognitiv 时,该公司现有的数据解决方案成本高昂且效率低下。查询通常需要很长时间才能完成,导致延迟并增加成本。这些系统也很难管理,需要大量的维护和调整。这些缺点限制了 Cognitiv 试验和改进其模型的能力,而这些模型对其广告购买算法至关重要。
Jason 说:“数据科学作为一个学科,不像工程那样可以有条不紊地分阶段构建。迭代时间对于数据科学团队的工作流程来说非常关键。”
为了寻找更好的解决方案,Cognitiv 团队开始评估可以为其 离线特征存储 提供支持的数据库系统,这对于训练新机器学习模型中的工程工作流程非常重要。他们考虑了几种替代方案,但这些解决方案中的每一种虽然功能强大,但都存在明显的缺点。 也就是说,在 Cognitiv 所需的规模下,数据摄取和查询的高成本和增加的延迟是令人望而却步的。
最终,他们发现了 ClickHouse,这是一款以其闪电般的速度和效率而闻名的开源列式数据库。Jason 说,他被 ClickHouse 处理大规模数据摄取和复杂查询且延迟最小的能力所吸引。其作为广告技术产品的背景也意味着它具有与 Cognitiv 用例相关的特性。 最重要的是,它承诺由于其对资源的有效利用而大幅节省成本。
Jason 说:“作为一家拥有大型数据集的小公司,成本对我们来说非常重要。ClickHouse 速度很快,但它的真正价值在于让我们更好地利用我们的资源。基本上,我们不需要花费那么多钱来解决同样的问题。”
构建概念验证
2021 年 9 月,Cognitiv 团队启动了概念验证 (POC) 阶段。他们首先建立了一个小型 ClickHouse 集群来测试其功能。POC 专注于一个特定的用例:查找与某些模式匹配的数据。这涉及扫描大型数据集并执行复杂的连接,Jason 说,这在他们之前的架构和数据库管理系统中“实际上是不可行的”。
ClickHouse 适用于此的原因是,我们将拥有非常大的数据历史记录,我们可能对长期内的特定序列感兴趣,但仅对少数标识符感兴趣。”
Jason 解释道。他怀疑 ClickHouse 的索引结构和数据压缩功能使其非常适合此特定用例,使他们能够更快、更准确地执行这些操作。
他是对的。ClickHouse 能够有效地处理以前需要数小时甚至数天才能完成的查询。这对 Cognitiv 的数据团队来说非常有价值,使他们能够快速迭代和改进其机器学习模型。该团队对 ClickHouse 即使在数据量增加的情况下也能保持高性能的能力印象深刻。
成功的 POC 表明,ClickHouse 不仅可以满足 Cognitiv 在这个特定用例中的需求,还可以满足其整个数据基础设施的需求。
转型到 ClickHouse Cloud
最初的 POC 集群在 2022 年全年持续增长。到年底,Cognitiv 团队已经确定了更多 ClickHouse 可以发挥作用的用例,并决定完全过渡到 ClickHouse。他们使用 Kubernetes 运算符构建了自己的生产集群。虽然这种设置运行良好,但它也带来了一系列挑战。
Jason 说:“问题在于升级它、扩展它、管理硬件支出以及所有这些事情。当你在 Kubernetes 运算符上遇到错误时,你就只能靠自己了。你必须自己解决。在某个时候,我们厌倦了它。”
当 ClickHouse 团队正在 从头开始构建 ClickHouse Cloud 时,Cognitiv 开始权衡托管服务的潜在好处。他们等到 2024 年 1 月,即云服务在 AWS 上正式发布后,才进行切换。
Jason 不想运行两个并行集群,他知道主要挑战之一是确保 Cognitiv 的海量数据(约 2 PB)能够顺利迁移到 ClickHouse Cloud,而不会中断正在进行的操作。
他说:“我们知道这将是一次实战演习。ClickHouse 的产品和工程团队反应非常迅速。我们不指望他们在一开始就做到完美。你所能要求的只是他们为你努力工作,而他们做到了。”
Cognitiv 迁移到 ClickHouse Cloud 获得了回报。从业务角度来看,它带来了更高的效率和简化的运营。特别是对于数据团队而言,它减轻了管理自己的数据库的挑战,使他们能够更快地迭代并专注于 Cognitiv 的核心业务:在市场上提供最佳的 AI 驱动的广告解决方案。
未来的道路
Cognitiv 制定了雄心勃勃的计划,以扩展其 ClickHouse 的使用。他们目前正在重新设计其架构,以优化数据存储和处理能力。从那里,他们计划探索 ClickHouse 的更多特性和高级功能,包括优化查询、减少数据量以及采用 ClickHouse 用于更多数据科学用例,例如数据探索和为构建机器学习模型做准备。
Jason 说:“ClickHouse 是我们数据战略的中心。它速度非常快且经济高效,但最重要的是它可以连接到所有东西。它真的很容易访问我们所有不同的数据。如果数据在那里,你可能可以将它连接到 ClickHouse。这对我们非常有帮助。”
Jason 很快称赞了他从 ClickHouse 获得的服务,尤其是他的团队在加入 ClickHouse Cloud 方面的经验。他说:“支持团队非常棒。需要帮助时有人可以求助真是太好了。” 托管服务减轻了他的团队的大量工作和压力,使他们能够腾出手来从事更高价值的活动,例如改进他们的模型并为客户提供更好的体验。
Jason 说:“有了 ClickHouse,你已经拥有了这项出色的核心技术和一个出色的周边生态系统。但是有了 ClickHouse Cloud,你获得的是一个优秀的支持团队、一个优秀的工程团队和一个优秀的产品团队。这才是真正帮助我们的。”
通过转型到 ClickHouse,Cognitiv 简化了他们的数据处理,并使操作更加用户友好。凭借对持续改进和创新的关注,Cognitiv 完全有能力保持其在程序化广告购买领域的领导者地位,通过尖端技术和专家数据管理为其客户交付价值。
要了解 ClickHouse Cloud 如何使您的业务受益,请注册免费试用。