博客 / 用户案例

BENOCS 如何使用 ClickHouse 监控全球最大电信公司的网络流量

Ingmar Poese & Rebecca Maschke

2022 年 3 月 22 日 - 6 分钟阅读

可视化大规模的网络流量需要快速索引（感谢 MergeTrees）和模糊匹配相结合。在本博客中，Benocs 分享了他们如何使用 ClickHouse 为电信公司提供网络流量优化和监控。

我们的一些客户是世界上最大的电信运营商，他们需要监控和分析海量的流量。因此，流量分析 需要一个强大的数据库作为后盾。市场上的数据库管理系统种类繁多，这意味着我们必须进行大量的测试，才能决定哪一个能让 BENOCS 流量分析 正常运行。

互联网是海量数据的家园，但这些数据不是静态的，而是像威廉·夏特纳乘坐火箭进行太空之旅一样在网络空间中飞速穿梭。而且不仅仅只有一个威廉·夏特纳进行 10 分钟的旅行：无数的数据传输时刻都在发生。这种移动意味着我们需要考虑另一个维度：时间。BENOCS 流量分析 用户需要调查特定时间范围内发生的事件，因此快速访问特定时间范围的数据，同时忽略其余数据，是基本要求。

为了以这种方式可视化网络流量，我们需要测量随时间变化的流量，向用户展示数据从其来源地到最终目的地的旅程中的行为方式。

在高复杂性和高速度下分析网络流量具有挑战性，尤其是在具有异步数据馈送的各种环境中。然而，我们喜欢挑战，而这正是 BENOCS 运营和必须处理的设置。在不同的网络设置中，BENOCS 统一数据源并关联传入的网络信息。

在 BENOCS，我们每天处理和关联数十 TB 的数据馈送。数据处理围绕着从不同来源获得的数据展开，然后通过多个作业进行推送。这实际上变成了一个数据推送架构，可以在数据可用时对其进行处理。

在上述场景中，三个数据馈送产生了三种不同数据类型的结果。此外，每个单独的馈送都有自己的时间分辨率以及数据应该可用的延迟——但是，有时会延迟。如果数据延迟，处理不应停止，而应跳过延迟的部分，直到它们可用。一旦可用，也必须使其可用。

在 BENOCS，我们选择以 ClickHouse 为核心构建此架构有几个原因。总而言之，这些原因是数据流上的快速索引和模糊匹配。

快速索引

快速索引是 BENOCS 大量使用 ClickHouse 的最重要原因。这归结为 ClickHouse 由于其 MergeTree 表设计，在特定维度上提供极快的查找。ClickHouse 允许基于主键在几秒钟内跳过大量数据，而无需考虑不相关数据中的数据。

对于 BENOCS 而言，这个维度是时间。在我们运行的 ClickHouse 管道中，基于时间的查找是安排任何作业的第一步。

让我们以结果 2 为例。只有当馈送 A/C 有数据时，才能处理它。但是，如果馈送 A 的数据丢失，则可以部分处理数据。在数字方面，这意味着如果馈送 A 具有特定小时的 10 个 5 分钟时间戳的数据，并且馈送 C 具有该同一小时的匹配时间戳，则至少可以计算结果 2 中的四个时间戳中的两个。其他两个时间戳需要等待馈送 A 使其数据可用。

ClickHouse 通过在时间维度上快速查找为 BENOCS 解决了这个问题。通过在主索引列上运行 DISTINCT SELECT 查询，可以在几秒钟内搜索 TB 级的数据。这使得检查数据可用性的操作变得轻量级，尽管数据负担很重。

然而，高效地搜索时间戳并查找差距并非全部。同样的原理也适用于实际的数据处理关联。ClickHouse 基于时间跳过数据的能力使得表大小几乎变得无关紧要，因为它能够有效地放大到所需的数据。这使得单个时间范围的处理时间与实际表大小以及数据中的位置无关。这种 ClickHouse 机制允许 BENOCS 在面对不可靠的数据流时运行高效的自愈式数据流。

模糊匹配

当处理不同的时间尺度时，连接表通常意味着统一匹配列以进行精确匹配。但是，当处理差异很大的时间尺度（参见馈送 B/C）时，这变得非常复杂，因为对于馈送 C 中的一个键，馈送 B 可能有多个不同的匹配项。此外，由于数据丢失/不完整，其他维度使事情变得复杂。

这就是 ClickHouse 的 ASOF 连接为 BENOCS 提供的帮助。这意味着能够使用连接找到最接近的匹配项，而不是精确匹配项。结合精心选择的 WHERE 子句，这成为一个强大的功能，可以极大地加快和简化查询。

总结

BENOCS 在 ClickHouse 中处理大量数据，利用其强大的引擎。能够精确定位所需数据并忽略不相关数据的能力使 BENOCS 能够构建一个自愈式数据管道，该管道可以处理不可靠和易变的数据馈送，从而为其客户提供稳定的分析。

如果您是希望优化网络流量的电信提供商，请访问 www.benocs.com 并注册免费的 Demolytics 账户，以查看 BENOCS 流量分析 的实际效果。

作者：Ingmar Poese & Rebecca Maschke，BENOCS

分享这篇文章