工商银行大数据云原生探索与实践

发布时间:2023-08-30 14:24

阅读次数:

分享到:

随着云计算技术的深入应用,带来资源集约化和应用灵活性优势的云原生概念产生,大数据技术完成了从私有化部署到云上部署再向云原生的转变,云原生能力正被大数据利用以提升效率。信通院最新发布的大数据白皮书指出:“利用云原生思想进行能力升级”为当前大数据技术发展趋势,在此背景下,中国工商银行持续探索和实践大数据云原生化,提升大数据技术对业务的支撑能力,强化金融服务实体经济的数字驱动能力。


一、大数据云原生建设初衷


自2002年起,工商银行软件开发中心即持续优化数据架构、推进数据赋能业务,并在完成数据大集中的基础上,开启了金融行业企业级数据仓库建设。此后,工商银行软件开发中心又以“开放、共享”为原则,于2016年启动了大数据服务云体系建设项目,以搭建可靠、高效、易扩展的大数据技术平台为基础,以“一湖两库”和丰富多样的数据服务为支撑,逐步形成了集技术、数据、服务于一体的数据中台体系。目前,工商银行已建成同业最大规模单集群,以大数据技术平台和数据中台体系支撑全行用数赋智,具备“自主可控、规模大、数据全、用数易、时效高、引擎多元”等优秀特点。随着数据和业务规模的不断增长,传统存算一体的大数据架构逐渐面临资源和性能瓶颈,在资源利用、资源调度、高效运维、敏捷创新等方面存在诸多瓶颈,逐渐无法适应未来的业务发展需要。具体来说,存在以下几个方面问题:


1)存算资源紧耦合传统架构下,大数据集群的计算资源和存储资源是紧耦合的,无法实现独立扩缩容,这造成了计算和存储资源利用率方面存在局部的不均衡。例如流式计算服务集群的计算资源利用率较高,存储资源利用率不高,存算一体架构下存储和计算资源只能同步扩容,带来资源的浪费。


2)资源调度欠灵活:传统架构下,各业务集群间资源使用存在一定错峰的情况,但跨集群、跨业务的弹性资源调配难以实现。计算资源在不同的业务集群之间无法弹性调度,特别是大数据业务和在线业务间存在明显的错峰现象,大数据业务高峰通常是凌晨0点至早上8点,在线业务高峰通常是早上8点至晚上22点,由于两者之间的计算资源不能灵活调度,导致整体设备规模出现了一定程度的膨胀。


3)资源隔离不彻底:传统架构下,为了实现数据全局共享,通常采用超大规模单集群部署模式,导致关键场景之间无法彻底做到资源隔离。


4)集群版本升级难:传统架构下,由于集群版本升级时,所有节点都需要同时更新,增加停机时间和系统风险,无法实现灰度升级,运维成本越来越高,导致新版本能力、新计算引擎的引入实施节奏慢,难以实现敏捷迭代。


云原生是大数据平台下一代架构的发展方向,特指大数据平台充分利用云的特性,以存算分离形态部署,支持计算资源弹性调度,实现技术能力的快速升级,以解决传统架构下的瓶颈问题。


二、大数据云原生建设思路

工商银行大数据和人工智能实验室一直以来保持着对大数据前沿技术的持续跟踪、研究及应用,针对大数据传统架构在资源和性能方面的痛点问题,前瞻性地对大数据云原生化进行了总体部署和工作规划,并在存算分离、资源弹性调度等方面完成了技术试点。


1、架构体系规划


工商银行大数据和人工智能实验室借鉴业界大数据云原生建设经验,从“算、管、存、弹”四个方面进行架构规划。通过建设云上统一存储服务,实现存算分离部署形态,解耦大数据存储与计算资源,并在架构上独立建设统一元数据服务,全局形成统一的数据视图,在统一资源管理服务中引入容器化弹性资源池,支持计算资源弹性调度,使得大数据平台在资源扩容、资源调度、资源隔离、资源利用率全方面获得提升,降低大数据平台综合成本,提升平台资源供给能力。工商银行云原生大数据平台整体架构可分为计算层、存储层和资源层:


640.png

云原生大数据平台规划架构图


计算层主要负责数据的处理和分析。通过提供丰富的计算引擎,满足多种业务场景的分析需求,包括批处理引擎Hive/Spark、批流一体引擎Flink、交互式分析引擎等。计算集群不再存储数据,实现无状态化,且可实现计算集群之间资源的完全隔离和按需扩容。


存储层包括统一存储和统一元数据服务,实现数据统一存储、元数据统一管理,统一面向多个大数据计算集群提供全局数据视图,避免传统架构下跨集群共享数据需拷贝一份带来的冗余问题。同时,通过权限统一控制,全局保障数据访问安全。


资源层统一纳管底层异构硬件,通过资源池化能力,向上融合供给大数据计算与存储资源。在资源层统一资源管理服务中创新引入容器化弹性资源池,支持计算资源弹性调度,并实现在离线资源混合部署和调度,使得大数据平台在资源供给能力方面获得大幅提升。


2、核心能力建设


通过存算分离解耦存储与计算资源。工商银行已在金融生态云完成存算分离架构试点,以公有云形式对行外客户提供灵活、弹性的大数据计算服务,真正做到计算不够扩计算,存储不够扩存储,按需供给大数据资源,保障计算、存储集群的资源利用率充分均衡。


通过容器化资源池实现资源弹性调度。工商银行已实现计算引擎容器化轻量级部署,并初步完成了容器化弹性资源池建设,支持在离线业务资源的混合部署和调度,大数据平台可错峰利用在线业务碎片化资源缓解月末、季末批量资源紧张问题,资源调度的灵活性得到了大幅提升。


640 (1).png

利用PaaS云平台实现容器化弹性资源池


通过计算集群无状态化改造和拆分,实现关键场景之间计算资源物理隔离,并支持集群灰度升级。工商银行基于存算分离架构,持续推进计算集群无状态化改造,并计划将原先的超大规模集群拆分成多个计算集群,做到关键场景之间计算资源彻底隔离,同时支持新技术能力的灰度引入与快速迭代,化解超大规模单集群的风险,降低运维成本,持续提升平台的稳定性。


三、总结与展望

大数据云原生已是不可逆转的行业趋势,随着云计算技术的不断发展,大数据技术体系也必将向云不断融合。大数据云原生目前仍处于探索阶段,未来工商银行大数据和人工智能实验室将持续推进新一代云原生大数据平台建设,继续秉持“科技引领,创新赋能”的发展理念,不断加强与业界领先科技公司的合作,持续提升大数据技术对业务的支撑能力,为金融科技应用实践和大数据生态建设添砖加瓦。

流量统计代码