在数字智能时代背景下,金融科技蓬勃发展,人工智能、大数据、流计算等技术与金融服务深度融合,为金融发展提供源源不断的创新活力。以集约化、数字化经营为导向,亿联银行建立了基于数据、标准、技术、平台的智能运维服务体系和智能运维自主平台。持续全面覆盖业务系统运行监控和管理,驱动宜联银行IT运维“数字化、智能化、服务化”转型。
亿联银行
首席信息官、总裁助理李树峰
规划建设思路
为解决数字化运维过程中遇到的“问题分析难、根因定位难、故障预测难、数据治理难、容量管理难、数据展现难”等痛点,宜联银行采用“统一化、标准化、标准化”以“智慧”为建设目标,以“数据驱动运维”为建设理念,以数据决策为驱动,打造满足宜联银行三级需求的智能运维自主平台转变。
智能运维自主平台依托“运维指标管理能力、可观测数据建模能力、运维数据综合分析能力”三大能力中心,构建典型的“业务故障快速可视化定位”和“闭环”环路故障分析与处置场景”应用场景,提高运维服务管理的连续性,形成“3+2”IT运营模式,进一步提高运维监控的深度和广度,强化全场景和业务运营监控的数字化分析能力。施工过程分为四个阶段。
第一阶段是“摸清一切、打基础”。在我行现有运维工具体系建设的基础上,探索和布局运维数据资产,打下坚实基础。基于要实现的数字化、智能化运维场景,梳理运维工具或平台架构、数据结构、数据实时性、数据完整性、数据正确性、数据标准化等解决方案已初步突破打破了“筒仓式”建设的数据壁垒,初步完成了数据的“统一”。
第二阶段是“建标准、强化管控”。围绕运维数据,从管理和实践的角度,对数据进行标准化、立体化、层次化建模,建立全局的IT运维监控管理指标体系,以及数据质量持续改进机制,数据管控流程、机制、标准和安全体系驱动数据资产化、资产配置标准化和数据分析标准化。
第三阶段是“管业务、重聚焦”。从业务系统的角度,通过数据和模型的结合,映射业务应用之间的关系、业务与基础设施之间的关系,并围绕业务构建横向调用和纵向依赖。拓扑,链接多维监控数据,监控从底层主机到上层业务的所有资源,构建统一的监控能力,丰富监控和故障根因分析路径,聚焦业务运维全栈观察和洞察能力,帮助定位故障根源。
第四阶段是“深悟、促智”。结合上述阶段成果,利用成熟的大数据、智能算法、智能决策分析、机器学习等技术,挖掘运维数据的价值,建立数据与业务的双向连接。 “连接”关系,发现商业价值,为经营工作提供决策信息,赋能我行数字化转型,实现从数字化运维到智能化的转变。
“3”大核心能力,夯实数据基础
1、运维指标管理中心。面向运维各种应用场景,聚焦运维数据,从管理和实践的角度,建立全局的IT运维监控管理指标体系。管理数据覆盖行业重要业务场景,涵盖指标、日志、告警、配置、流程等各类数据。从维度、分类分层、运维指标关系、评价、属性、建模等方面进行设计,建立以业务为中心的各层IT的层次模型(如图1所示)。
图1 指标分层设计模型
2、数字地图的运行与维护。配置中心基于多种自动发现方式维护元数据,完成从Iaas、Paas到Saas各层运维元数据的全面管理,结合数据和模型映射业务应用之间、业务与基础设施之间的关系。关系,面向业务运维场景,依托业务层级结构,整合业务维度资源,构建形成横向业务链路+纵向物理资源的数字化运维图谱。
基于业务层拓扑,从业务和应用的角度组织和维护软件、硬件、网络、服务等资源及其关联关系。
业务层级管理:支持自定义业务层级,支持根据业务层级构建模型,让业务管理员可以通过业务层级直观地查看模型之间的业务关系(如图2)。
图2 业务层管理模型关系图
3、运维数据智能分析中心。智能分析中心的目标是“以数据为基础、以算法为支撑、以场景为导向”,应用先进的实时海量大数据处理技术和机器学习等人工智能技术,打通信息鸿沟, IT 系统和业务交易之间的差距。管理故障并提供向上的数据和能力支持。
数据聚合分析:通过多维度指标综合分析计算,构建系统运行健康度、整体业务监控态势感知,提升监控管理流程域整体能力(如图3所示)。
图3 业务监控态势感知
智能算法分析:统一接入处理来自各监控系统的报警消息和数据指标,支持报警事件的过滤、通知、响应、处置、分级、跟踪和多维度分析,利用算法学习建立“风险预测中心” ”和“故障决策中心”为业务应用程序实现更高的质量、合理的成本和高效的运营支持来维护IT或业务服务(如图4所示)。
图4 智能预测中心
“2”典型运维场景,提升运维效率
1、聚焦“多源+多层+多元化”数字地图,驱动运维思路转变。商业交易的全球概览。从银行业务系统的角度,围绕重要业务场景构建系统间关系,可以直观地看到各个业务系统的健康状况。针对我行各种交易场景,我们具备全链路故障追踪能力。通过对全局概览图进行下钻,我们可以从系统和资源维度观察整个事务链路的运行情况,连接日志、事件、资源关系、变更信息。 ,以事件为维度,汇聚多维数据进行三维展示,辅助快速决策。
商业交易场景驾驶舱。从业务交易的角度出发,聚合了三大核心能力,为业务操作提供直观的可视化界面。它通过颜色变化展示业务事务处理能力,包括业务事务量、成功率、响应率、平均响应时间,及时反馈系统运行情况和业务趋势。 ,为业务决策提供数据支持。
单笔交易链接跟踪。单笔交易分析可以根据交易流向,通过系统链路、服务链路、主机数量等信息来分析当前的交易流向。通过可视化拓扑,可以查看当前交易系统的故障节点,同时可以查看系统中的服务故障点,通过堆栈、日志、长期日志等方式进行深入的服务故障定位耗时等
2、集约化的多管理系统能力,闭环的故障分析和处置场景。通过多系统能力聚合,形成闭环故障分析处理措施,有效快速跟踪管理从故障发现到故障自动修复的全流程,第一时间保障业务安全、稳定、高效。的操作。
项目进展
引进人工智能技术。该项目通过引入异常检测、根因分析、指标预测等先进的人工智能技术,实现了海量数据的智能分析和处理,能够快速响应和分析异常情况。这使得运维管理更加智能、自动化、高效,提高运维效率和业务稳定性。
综合管理能力。智能运维自主平台项目具备针对不同系统、不同层级、不同领域的综合管理能力。通过数据集成和智能技术,可以对不同的运维管理数据进行整合和分析,同时保证业务的稳定性。我们银行的经营活动受到全面监控和优化。
智能决策支持。智能运维自主平台项目提供智能决策支持功能,可以通过数据分析和智能算法为我行运维管理提供优化建议和预测分析,从而更好地制定策略和决策。
大数据和云计算。智能运维自主平台项目采用大数据和云计算技术,能够有效处理海量数据,同时支持多个业务系统的管理和监控。这使得我行的运维管理更加高效、准确、可靠,更具竞争力。
实际结果和好处
基于智能运维自主平台建设,打破“筒仓式”数据壁垒,统一运维数据标准,实现运维过程中涉及的监控、流程、应用运维数据对运维数据进行索引和存储,通过集中数据采集、数据清洗、特征处理、规则模型、顶层场景设计,形成运维场景各级应用系统的调用关联,实现“端到端”的覆盖,以及数据资产的标准化推动数据显示的“个性化”。利用智能算法平台形成业务场景健康度、IT指标多维度分析、IT调用链、业务层级拓扑的三维监控。通过平台的技术支撑和数据驱动运维理念的结合,实现智能化运维的革命,提升业务监控指标、应用系统监控指标、报警和故障定位能力,提高运营和维护效率。维护效率。
1.价值表达。构建运维数字化地图,形成“横向业务链路+纵向物理资源”的关系图谱,建立清晰的指标体系,在关键业务指标上形成业务服务质量目标;构建应用架构数据治理体系,线上维度建立交易主动巡检和常态化闭环管控方式,重点关注慢交易和失败交易,洞察交易流向和资源调用,促进业务流程的改善。资产数据质量及场景化应用;有效整合架构信息和运维信息,将系统和基础资源信息汇聚到场景化模型中进行可视化展示,实现对重要业务交易的场景化监控和故障闭环分析处置;智能运维自主平台建设项目引入人工智能技术和自动化方法,通过智能决策、自动化流程、数据分析等创新手段,实现生产问题预测能力,全面提升生产运营保障能力。
2. 性能改进。本项目以银行业务系统为视角,围绕银行内部重要业务场景实施。系统上线后,运维人员可以通过运维自主平台中的可视化拓扑快速定位故障,直观地展示网络、服务器、应用、数据库、中间件是否出现问题。定位问题后,直接跳转到问题系统进行处理。系统运行一段时间后,故障排除时间已增加到几分钟。另外,通过对告警和指标的趋势分析,故障发生时三维可视化显示,大大提高了系统故障定位的准确性。
未来,亿联银行将持续完善数字金融基础设施,全面推动金融数字化转型。通过引入先进技术和创新解决方案,提升金融服务的智能化和便捷性,为客户提供更加全面、高效的金融体验,为金融科技的繁荣和发展做出贡献。
(本文发表于《金融电子化》2024年2月下半期)
新媒体中心
导演/匡远
编辑/姚良玉 付甜甜 张俊 台思琪