博客 / 用户案例

广告技术转型:Cognitiv 如何使用 ClickHouse 构建更出色的机器学习模型

author avatar
ClickHouse 团队
2024 年 8 月 6 日 - 8 分钟阅读

Cognitive - yellow.png

自 2015 年以来,Cognitiv 一直使用深度学习来优化广告机会的实时竞价。其深度学习广告平台每秒处理数百万次机会。当网页加载且广告位可用时,Cognitiv 的算法会探索这些机会并代表客户进行竞价,根据 KPI 优化效果。

Cognitiv 成功的核心是为其竞价算法提供支持的复杂机器学习模型。这些模型依赖于海量数据,必须对其进行高效管理、处理和分析,以便 Cognitiv 的数据团队能够快速迭代。

工程师 Jason Ruckman 表示:“任何做过机器学习的人都会告诉你,数据是模型中最重要的部分。架构是一回事。但真正重要的是你的数据。”

Cognitiv 改变了其数据管理方法,集成了 ClickHouse 以努力提高性能并简化操作。该实施不仅使 Cognitiv 能够轻松处理其海量数据,还使他们的数据团队能够开发更先进的机器学习模型,从而巩固了该公司在程序化广告购买领域作为领导者和创新者的地位。

更高效的离线特征存储

当有人访问网站时,像 Cognitiv 这样的平台会立即分析数据,以确定要展示的最佳广告,使用复杂的算法和机器学习来优化实时定位和竞价。训练这些模型需要巨大的计算能力以及快速高效地处理和分析海量数据的能力。

Jason 于 2021 年加入 Cognitiv 时,该公司现有的数据解决方案成本高昂且效率低下。查询通常需要太长时间才能完成,导致延迟并推高成本。这些系统也很麻烦,需要大量的维护和调整。这些缺点限制了 Cognitiv 试验和改进其模型的能力,而这些模型对其广告购买算法至关重要。

Jason 说:“数据科学作为一门学科,不像工程那样可以有条不紊地分阶段构建。迭代时间对于数据科学团队的工作流程来说至关重要。”

为了寻找更好的解决方案,Cognitiv 团队开始评估数据库系统,这些系统可以为其离线特征存储提供支持,这对于训练新机器学习模型中的工程工作流程非常重要。他们考虑了几个替代方案,但这些解决方案中的每一个虽然功能强大,但也存在明显的缺点。即,数据摄取和查询的高成本和增加的延迟在 Cognitiv 所需的规模下是令人望而却步的。

最终,他们发现了 ClickHouse,这是一个开源的列式数据库,以其闪电般的速度和效率而闻名。Jason 说,他被 ClickHouse 处理大规模数据摄取和复杂查询且延迟最小的能力所吸引。其作为广告技术产品的背景也意味着它具有与 Cognitiv 用例相关的特性。最重要的是,它承诺由于其对资源的有效利用而带来大幅成本节约。

Jason 说:“作为一家拥有大型数据集的小公司,成本对我们来说很重要。ClickHouse 速度很快,但其真正的价值在于让我们更好地利用我们的资源。基本上,我们不需要花那么多钱来解决同样的问题。”

构建概念验证

在 2021 年 9 月,Cognitiv 团队启动了概念验证 (POC) 阶段。他们首先建立了一个小的 ClickHouse 集群来测试其功能。POC 专注于一个特定的用例:查找与某些模式匹配的数据。这涉及扫描大型数据集并执行复杂的连接,Jason 说,这在他们以前的架构和数据库管理系统下“实际上是不可行的”。

ClickHouse 适用于此的原因是我们将拥有非常庞大的数据历史记录,我们可能对长期内的特定序列感兴趣,但仅对少数标识符感兴趣。”

Jason 解释道。他怀疑 ClickHouse 的索引结构和数据压缩功能使其非常适合此特定用例,从而使他们能够更快、更准确地执行这些操作。

他是对的。ClickHouse 能够高效地处理以前需要数小时甚至数天才能完成的查询。这对 Cognitiv 的数据团队来说非常有价值,使他们能够快速迭代和改进他们的机器学习模型。该团队对 ClickHouse 即使在数据量增加的情况下也能保持高性能的能力印象深刻。

成功的 POC 表明,ClickHouse 不仅可以满足 Cognitiv 在此特定用例中的需求,还可以满足其整个数据基础设施的需求。

过渡到 ClickHouse Cloud

最初的 POC 集群在 2022 年全年持续增长。到年底,Cognitiv 团队已经确定了更多 ClickHouse 可以发挥作用的用例,并决定完全过渡到 ClickHouse。他们使用 Kubernetes 操作符构建了自己的生产集群。虽然这种设置运行良好,但它也带来了一系列挑战。

Jason 说:“问题在于升级它、扩展它、管理硬件支出以及所有此类事情。当你在 Kubernetes 操作符上遇到错误时,你就只能靠自己了。你必须自己解决。在某个时候,我们厌倦了它。”

当 ClickHouse 团队正在从头开始构建 ClickHouse Cloud时,Cognitiv 开始权衡托管服务的潜在好处。他们等到 2024 年 1 月,在云服务在 AWS 上正式发布后,才进行切换。

由于不想运行两个并行集群,Jason 知道,主要的挑战之一将是确保 Cognitiv 的海量数据(约两 PB)能够顺利迁移到 ClickHouse Cloud,而不会中断正在进行的操作。

他说:“我们知道这将是一次实弹演习。ClickHouse 的产品和工程团队非常积极响应。我们不期望他们一开始就做得完美。你所能要求的只是他们代表你努力工作,他们做到了。”

Cognitiv 迁移到 ClickHouse Cloud 获得了回报。从业务角度来看,它带来了更高的效率和简化的运营。特别是对于数据团队而言,它减轻了管理自身数据库的挑战,使他们能够更快地迭代并专注于 Cognitiv 的核心业务:在市场上提供最佳的 AI 驱动的广告解决方案。

未来的道路

Quote.png

Cognitiv 计划扩大 ClickHouse 的使用范围。他们目前正在重新设计其架构,以优化数据存储和处理能力。从那里,他们计划探索 ClickHouse 的更多特性和高级功能,包括优化查询、减少数据量,以及为更多数据科学用例(例如数据探索和机器学习模型构建的准备工作)采用 ClickHouse。

Jason 说:“ClickHouse 是我们数据战略的中心。它速度非常快且具有成本效益,但最重要的是它可以连接到所有事物。它真的很容易访问我们所有不同的数据。如果它在那里,你很可能可以将其连接到 ClickHouse。这对我们非常有帮助。”

Jason 很快赞扬了他从 ClickHouse 收到的服务,特别是他的团队在加入 ClickHouse Cloud 方面的经验。“支持团队非常棒,”他说。“需要帮助时有人可以打电话真是太好了。”托管服务减轻了他的团队的大量工作和压力,使他们可以专注于更高价值的活动,例如改进他们的模型并为客户提供更好的体验。

Jason 说:“使用 ClickHouse,你已经拥有了这项出色的核心技术和一个出色的周边生态系统。但是,使用 ClickHouse Cloud,你将获得一个优秀的支持团队、一个优秀的工程团队和一个优秀的产品团队。这才是真正帮助我们的。”

通过过渡到 ClickHouse,Cognitiv 简化了其数据处理并使操作更加用户友好。凭借对持续改进和创新的关注,Cognitiv 完全有能力保持其作为程序化广告购买领导者的地位,通过尖端技术和专家数据管理为其客户创造价值。

要了解 ClickHouse Cloud 如何使您的企业受益,请注册免费试用

分享此文章

订阅我们的新闻通讯

随时了解功能发布、产品路线图、支持和云产品信息!
正在加载表单...
关注我们
X imageSlack imageGitHub image
Telegram imageMeetup imageRss image
©2025ClickHouse, Inc. 总部位于加利福尼亚州湾区和荷兰阿姆斯特丹。