博客 / 社区

纽约市Meetup报告:使用ClickHouse进行大规模金融市场分析(彭博社)

author avatar
ClickHouse 编辑器
2022年12月6日 - 5 分钟阅读

2022年12月6日,彭博社结构化产品团队的工程团队主管 Baudouin Giard 在纽约市的Meetup上介绍了他的团队使用 ClickHouse 的案例。

金融行业需要先进的数据管理和分析能力,以便为机构投资者提供准确及时的信息。彭博社作为金融市场的领先数据提供商,在优化数据摄取和查询性能方面面临着独特的挑战。ClickHouse 的列式存储、易用性以及使用简单数学编写复杂计算的能力,使其成为彭博社用例的绝佳选择。

彭博社的产品包括彭博终端和一些企业 API,这些产品不断为机构投资者提供最佳数据。该公司的挑战是优化相对较少的人同时查询约 1 亿种证券的情况。

“我必须优化的不是一百万人同时连接到彭博社。我必须优化的是单个人同时查询关于一亿种证券的数据。如果一千人做同样的事情呢?” Giard 说。“人们想要全面了解整个市场,并且想要将他们正在做的事情与市场平均水平进行比较。”

Giard 的团队已经使用 ClickHouse 两年了,彭博终端上利用 ClickHouse 的特定应用程序是他们最努力的项目之一。数据集相对较小,只有 50 亿行和 100 列,使用模式非常基本。用户过滤和分组列,并选择列来执行交互式查询,这些查询需要他们迭代查询并执行有些复杂的计算。

Bloomberg  highlights.png

Giard 解释说,ClickHouse 对于他们的用例来说是一个极好的选择,因为它采用列式存储,这使得用户可以只查询必要的列,而不会使用过多的内存。

“当您拥有像这样具有 100 列的数据集时,列式存储是非常宝贵的资产。您很快就会发现,人们可能只对其中的 10 列感兴趣,但偶尔会有人想要查询第 100 列。因此,您希望让它可用,但您不希望拥有一个完整的内存数据存储,该存储会为所有这些人们偶尔使用一次的列使用大量内存,”Giard 说。

此外,ClickHouse 易于使用,并允许用户使用简单的数学方法编写复杂的计算。

Bloomberg strengths.png

该团队优化数据摄取而不是数据查询速度的方法帮助他们在一小时内摄取了 4 TB 的数据。每次需要更改数据(例如添加新列)时,Giard 都会创建一个新的 ClickHouse 表。缓冲表的使用有助于确保所有数据都在内存中,从而使过程非常灵活。

数据质量至关重要,Giard 强调了快速更新数据以确保客户获得准确数据的重要性。缓冲表的使用以及为每次更改创建新表使过程变得灵活,从而可以快速更新数据并为客户提供准确的数据。

“这对我来说非常重要,因为当您从事数据业务,尤其是金融数据时,您的优势,让您变得优秀的原因是您数据的质量,”Giard 说。

Giard 还讨论了 ClickHouse 如何通过合并树表处理不可变文件,这使得用户在向表中追加新数据时可以立即克隆表。但是,客户端执行的每个查询都会给 ZooKeeper 带来压力,如果 ZooKeeper 崩溃,可能会导致整个应用程序崩溃。因此,该团队一直在测试灾难恢复模拟,以确保该过程有效。

彭博社目前在公司提供的机器的默认设置下在本地使用 ClickHouse,他们使用本地存储为客户提供数据服务。但是,Giard 希望尝试在 Kubernetes 集群上部署 ClickHouse,使用其内部 S3 后端作为存储,并尝试 ClickHouse Keeper。

Baudouin Giard 关于彭博社 ClickHouse 独特用例的演示为金融行业的其他公司提供了宝贵的见解。Giard 团队优化数据摄取而不是数据查询速度的方法帮助他们高效地摄取了大量数据,同时确保了数据质量。ClickHouse 的列式存储、易用性以及使用简单数学编写复杂计算的能力,使其成为此用例的绝佳选择。

更多详情

  • 本次演讲于 2022 年 12 月 6 日在纽约市的 ClickHouse 社区 Meetup 上进行
  • 演示材料可在 GitHub 上获取
分享此帖子

订阅我们的新闻邮件

及时了解功能发布、产品路线图、支持和云产品!
正在加载表单...
关注我们
X imageSlack imageGitHub image
Telegram imageMeetup imageRss image
©2025ClickHouse, Inc. 总部位于加利福尼亚州湾区和荷兰阿姆斯特丹。