我们欢迎 Opensee 的 Christophe Rivoire(英国区经理)和 Elena Bessis(产品营销助理)作为嘉宾来到我们的博客。今天,他们将向我们介绍他们的产品如何通过 ClickHouse 的强大功能,让金融机构的业务用户能够直接、即时、按需地利用 100% 的海量数据,且没有规模限制。
Opensee 是一家金融科技公司,为金融机构提供实时自助分析解决方案,帮助他们将大数据挑战转化为竞争优势——释放由业务用户主导的重要机遇。Opensee(前身为 ICA)由一群金融行业和技术专家创立,他们对没有简单的大数据分析解决方案能够让他们轻松高效地深入挖掘所有数据,或对他们处理的数百 TB 数据执行假设分析感到沮丧。
因此,他们构建了自己的解决方案。
ClickHouse 用于处理数万亿金融数据点
金融机构一直以来都存储大量数据(客户数据、风险数据、交易数据等),用于自身的决策流程和监管要求。自金融危机以来,世界各地的监管机构都在大幅提高报告要求,坚持更长的历史范围和更精细的粒度。这种组合产生了指数级增长的数据量,迫使金融机构审查和升级其基础设施。Opensee 提供了一种解决方案,用于导航所有这些基于数百万、数十亿甚至数万亿数据点的超大型数据立方体。为了构建它,需要一个能够随着数据水平扩展并具有快速 OLAP 查询响应时间的数据存储系统。2016 年,经过全面评估,Opensee 得出结论,ClickHouse 是显而易见的解决方案。
有许多用例涉及每天存储和利用海量数据,但 Opensee 从自身专业知识的优势出发,评估与金融市场活动相关的风险。风险有多种类型(市场风险、信用风险、流动性风险...),所有这些风险都需要聚合大量数据,以便计算线性和非线性指标(包括业务和监管指标),并即时分析所有这些数字。
图片1
Opensee 中用于市场风险用例的仪表板
ClickHouse 在可扩展性、粒度、速度和成本控制方面的优势
金融机构有时认为,他们构建高效存储解决方案(如用于海量数据的数据湖,通常构建在 Hadoop 堆栈之上)的能力将使实时分析成为可能。不幸的是,许多这些系统对于大规模分析来说速度太慢。
对于有实时需求的用户来说,在 Hadoop 数据湖上运行查询根本不是一个选项!银行尝试在数据湖和用户之间使用不同类型的分析层,以便访问其存储的数据并运行分析,但遇到了新的挑战:内存计算解决方案缺乏可扩展性,硬件成本高昂。其他公司尝试了查询加速器,但被迫仅分析准备好的数据(预聚合或专门索引的数据),失去了始终需要理解诸如每日变化等事物的粒度。最近,金融机构一直在考虑云数据库管理系统,但对于非常大的数据集和计算,这些服务的速度远不及 ClickHouse 在其特定用例中可以实现的速度。
最终,这些技术都无法同时兼顾可扩展性、粒度、速度和成本控制,迫使金融机构做出了一系列妥协。借助 Opensee,无需妥协:该平台利用 ClickHouse 的能力来处理数据湖所需的海量数据,以及内存数据库可以提供的快速响应,而无需预聚合数据。
Opensee UI 中关于流动性用例的透视表
Opensee 架构
Opensee 提供了一系列 API,允许用户完全抽象所有复杂性,特别是物理数据模型。这些 API 通常用于数据摄取、数据查询、模型管理等。借助 Opensee 的低代码 API,用户无需通过复杂的准 SQL 查询访问数据,而是通过由 Opensee 优化的简单业务查询来交付性能。Opensee 的后端(提供对 Clickhouse 的间接访问)是用 Scala 编写的,而 PostgreSQL 包含所有必须以事务方式管理的配置和上下文数据。Opensee 还为前端提供了各种选项(专用的 Opensee Web 或富用户界面、Excel 等),以与数据交互、在立方体中导航并利用诸如数据版本控制之类的功能——专为金融机构的使用而构建。
Opensee 架构图
ClickHouse 的优势
对于 Opensee 而言,最有价值的特性是水平可扩展性,即数据分片能力。其次是非常快速的字典查找、使用向量化的快速计算以及管理数组值的能力。在时间序列或历史数据无处不在的金融行业,这种计算向量和管理数组值的能力至关重要。
除了作为一个极其快速高效的解决方案之外,其他优势还包括
- 分布式和复制,具有高可用性和高性能的 map/reduce 系统
- 广泛的功能集,适合分析
- 非常出色且广泛的格式支持 (csv, json, parquet, orc, protobuf 等)
- 通过广泛的社区对非常流行的开源技术的高度贡献,实现了非常快速的演进
除了 ClickHouse 的这些原生优势和功能之外,Opensee 还开发了许多其他专为金融机构设计的功能。仅举几例,就创建了一个数据版本控制机制,允许业务用户即时更正不准确的数据或模拟新值。这种“假设”模拟功能可用于添加、修改或删除交易,具有完整的可审计性和可追溯性,而无需删除任何数据。
另一个关键功能是 Python 处理器,可用于定义更复杂的计算。此外,还构建了抽象模型层,以消除用户物理数据模型的复杂性并优化查询。最后但同样重要的是,在可视化方面,已经与金融机构的用户一起并为其开发了专用的 UI。
将硬件成本降低 10 倍以上
对于通常使用内存计算技术的大型金融机构而言,成本效率因素是一项关键改进。将硬件成本降低十倍(有时甚至更多)绝非易事!能够在本地或云端的标准服务器上使用非常大的数据集是一项重大成就。借助由 ClickHouse 驱动的 Opensee,金融机构能够缓解现有解决方案的关键限制,避免遗留的妥协和缺乏灵活性。最终,这些组织能够为其用户提供一个一站式解决方案,以在一个地方、一个数据模型、一个基础设施中实时分析其所有曾经孤立的数据集,并结合非常精细和非常长的历史范围。
关于 Opensee
Opensee 使金融数据分析师能够更深入、更快速地进行分析。Opensee 总部位于巴黎,在伦敦和纽约设有办事处,与全球一级银行、资产管理公司、对冲基金和交易平台等值得信赖的客户群合作。
欲了解更多信息,请访问 www.opensee.io 或在 LinkedIn 和 Twitter 上关注他们。