DoubleCloud 即将停止运营。利用限时免费迁移服务迁移到 ClickHouse。立即联系我们 ->->

博客 / 用户案例

Opensee:使用 ClickHouse 每天分析数 TB 的金融数据

author avatar
Christophe Rivoire 和 Elena Bessis
2022 年 2 月 22 日

我们很高兴欢迎来自 Opensee 的 Christophe Rivoire(英国国家经理)和 Elena Bessis(产品营销助理)作为我们博客的嘉宾。今天,他们将告诉我们他们的产品如何利用 ClickHouse 的强大功能,使金融机构的业务用户能够立即按需直接利用其海量数据的 100%,并且不受规模限制。

Opensee 是一家金融科技公司,为金融机构提供实时自助分析解决方案,帮助他们将大数据挑战转化为竞争优势——释放由业务用户主导的重要机遇。Opensee(前身为 ICA)由一群金融行业和技术专家创立,他们对现有的简单大数据分析解决方案感到沮丧,因为这些解决方案无法让他们轻松有效地深入挖掘所有数据,或者对他们处理的数百 TB 的数据进行假设分析。

因此,他们自己构建了一个。

ClickHouse 用于处理数万亿个金融数据点

金融机构始终存储大量数据(客户数据、风险数据、交易数据等),用于自身的决策流程和监管目的。自金融危机以来,世界各地的监管机构一直在大幅增加报告要求,坚持更长的历史范围和更细粒度的信息。这种结合产生了指数级增长的数据量,迫使金融机构审查和升级其基础设施。Opensee 提供了一种基于数百万、数十亿甚至数万亿个数据点的解决方案来导航所有这些非常大的数据立方体。为了构建它,需要一个能够随着数据水平扩展并具有快速 OLAP 查询响应时间的存储系统。2016 年,在经过彻底的评估后,Opensee 得出结论,ClickHouse 是显而易见的解决方案。

许多用例都涉及每天存储和利用海量数据,但 Opensee 基于自身专业知识构建了风险评估,这些风险与金融市场活动相关。风险类型多种多样(市场风险、信用风险、流动性风险等),所有这些风险都需要聚合大量数据才能计算线性或非线性指标(业务和监管指标),并即时分析所有这些数字。

图片 1Screenshot-UI-Dashboard_NEW.webp

Opensee 中市场风险用例的仪表板

ClickHouse 用于扩展性、粒度、速度和成本控制

金融机构有时认为,他们能够为海量数据构建高效的存储解决方案(如数据湖),通常构建在 Hadoop 堆栈之上,将使实时分析成为可能。不幸的是,许多这些系统对于大规模分析来说太慢了。

对于具有实时需求的用户来说,在 Hadoop 数据湖上运行查询根本不可行!银行尝试在数据湖和用户之间使用不同类型的分析层,以允许访问其存储的数据并运行分析,但遇到了新的挑战:内存计算解决方案缺乏可扩展性并且硬件成本高昂。其他一些尝试使用查询加速器,但被迫仅分析准备好的数据(预聚合或专门索引的数据),从而失去了始终需要了解每日变化等情况的粒度。最近,金融机构一直在考虑云数据库管理系统,但对于非常大的数据集和计算而言,这些服务的速度远不及 ClickHouse 能够为其特定用例实现的速度。

最终,这些技术都无法同时兼顾可扩展性、粒度、速度和成本控制,迫使金融机构做出一系列妥协。使用 Opensee,无需妥协:该平台利用 ClickHouse 处理数据湖所需的大数据量和内存数据库可以提供的快速响应的能力,而无需预先聚合数据。

Screenshot-UI-Hybrid-Pivot-and-UI_NEW.webp

Opensee UI 中流动性用例的透视表

Opensee 架构

Opensee 提供了一系列 API,允许用户完全抽象所有复杂性,特别是物理数据模型。这些 API 通常用于数据摄取、数据查询、模型管理等。借助 Opensee 的低代码 API,用户无需通过复杂的类 SQL 查询访问数据,而是可以通过简单的业务查询访问数据,这些查询由 Opensee 优化以提供性能。Opensee 的后端(提供对 Clickhouse 的间接访问)是用 Scala 编写的,而 PostgreSQL 包含所有必须以事务方式管理的配置和上下文数据。Opensee 还提供各种前端选项(专用的 Opensee Web 或丰富的用户界面、Excel 等)来与数据交互、浏览数据立方体并利用数据版本控制等功能——专为金融机构的使用而构建。

opensee-architecture-chart.png Opensee 架构图

ClickHouse 的优势

对于 Opensee 而言,最有价值的功能是水平可扩展性,即分片数据的能力。接下来是极快的字典查找、利用向量化的快速计算以及管理数组值的能力。在金融行业,时间序列或历史数据无处不在,这种计算向量和管理数组值的能力至关重要。

除了极快且高效的解决方案外,其他优势还包括

  • 分布式和复制,具有高可用性和高性能的 Map/Reduce 系统
  • 广泛的功能适合分析
  • 非常棒且广泛的格式支持(csv、json、parquet、orc、protobuf 等)
  • 通过广泛的社区对非常流行的开源技术的巨大贡献,实现了非常快速的演变

在这些 ClickHouse 的原生优势和功能之上,Opensee 还开发了许多专用于金融机构的其他功能。仅举几例,创建了一种数据版本控制机制,允许业务用户即时更正不准确的数据或模拟新值。“假设”模拟功能可用于添加、修改或删除交易,并具有完整的可审计性和可追溯性,而不会删除任何数据。

另一个关键功能是可用于定义更复杂计算的 Python 处理器。此外,构建了抽象模型层以消除用户对物理数据模型的复杂性并优化查询。最后但并非最不重要的是,在可视化方面,已经为金融机构开发了一个由用户和为用户开发的 UI。

将硬件成本降低 10 倍以上

对于通常使用内存计算技术的大型金融机构来说,成本效率因素是一个关键改进。将硬件成本降低十倍(有时甚至更多)并非易事!能够在本地或云中使用标准服务器上的非常大的数据集是一项重大成就。借助由 ClickHouse 提供支持的 Opensee,金融机构能够缓解其现有解决方案的关键限制,避免遗留妥协和缺乏灵活性。最后,这些组织能够为其用户提供一个交钥匙解决方案,在一个地方、一个数据模型、一个基础设施中分析所有曾经处于孤立状态的数据集,所有这些都可以在实时进行,同时结合非常细粒度和非常长的历史范围。

关于 Opensee

Opensee赋能金融数据分析师更深入、更快速地进行分析。Opensee总部位于巴黎,并在伦敦和纽约设有办事处,与全球一线银行、资产管理公司、对冲基金和交易平台的受信客户群合作。

更多信息,请访问www.opensee.io或在LinkedInTwitter上关注我们。

分享此文章

订阅我们的新闻通讯

随时了解功能发布、产品路线图、支持和云产品信息!
加载表单...
关注我们
Twitter imageSlack imageGitHub image
Telegram imageMeetup imageRss image