翼支付数据仓库建设与治理:明确规划与持续优化的关键步骤

2024-08-26
来源:网络整理

在数据仓库建设初期,翼支付主要面临以下几个问题:

这些问题凸显了在整个数据仓库建设和优化过程中,数据治理体系、技术架构、安全策略、运营管理等都需要清晰规划和持续优化。

02

数据治理建设内容

易付支付在进行数据治理的时候,首先确定了数据治理的主要内容,重点包括:

03

企业级数据仓库建设

1. 研究阶段

易付支付数据治理的早期研究工作可以概括为四个重点领域。

通过这四个步骤的细致调研,易服智奠定了数据治理的基础,并以此规划和推动后续的治理进程。

2.平台护航

开展数据治理,关键环节之一是建立和优化支撑数据治理架构的技术平台。

首先,数据开发平台提供了重要的调度、监控和运维功能,计算引擎由Hive升级为,提升性能和可靠性。

第二,自助式BI平台包括两部分。一部分是即席查询平台,提供数据探索、数据下载管理等功能,致力于提升数据查询效率,加强数据安全管理。在数据产出的各个环节实施严密的安全管控。比如数据下载必须走审批流程,分为自动审批和领导审批,不同级别的数据对应不同的审批级别。另一部分是自研报表平台,提供可视化界面,推进国产化进程。

第三,元数据管理平台对于标准化和集成基本元数据信息至关重要,包括表创建、数据地图、血统分析以及数据安全分级和生命周期管理。

第四,指标管理平台对指标进行业务和技术方面的处理,存储到特定的数据表中,并提供基础信息,实现对标签等数据资产的有效管理。

在完成技术平台的研究和搭建之后,接下来就是数据仓库的具体建设。在数据仓库建设之前,必须建立明确的规范,避免孤岛式开发,保证数据治理的统一性和高效性。这一系列平台的搭建和完善,为数据治理工作的精细化打下了坚实的基础。

3.数据仓库分层

数据仓库的建设遵循互联网公司常用的分层架构,主要包括操作数据存储(ODS)层、明细数据(DWD)层、汇总数据(DWS)层、公共数据集市(DWM)层、个性化数据集市(DM)层和应用程序(APP)层。

ODS层数据从业务库同步过来,基本与业务库数据保持一致。数据明细层对明细数据进行进一步处理,进行敏感数据加密、数据质量处理和命名标准化,关联常用维度及维度降级。DWS层包含明细宽表和汇总数据,明细宽表一般是在不改变原有粒度的情况下,在多个数据域中延伸的明细数据。汇总数据基于统一的统计粒度和同一统计周期的指标计算,负责生成公共的汇总数据,供多种应用场景使用。DM层与DWS内容基本一致,不同之处在于一些个性化的指标处理不可复用,在DWS指标集基础上可根据不同需求集成DM层指标。

所有数据输出都要经过APP层,保证数据的一致性。APP层不计算复杂的指标,只做简单的指标拓宽和简单的计算,避免过去其他层直接推送带来的数据链路问题。这样一来,易服智保证了数据架构的整洁性和可维护性。另外,DIM层专注于维度数据的存储,易服智在完成产品调研、业务流程、技术库表之后,现在专注于制定规范,进行数据建模,这是数据仓库建设的下一个重要步骤。

4. 维度建模

现在大部分公司都是采用维度建模,维度建模的核心步骤包括:选取业务流程,指选取金融产品中用户需要经历的信贷、贷款、还款等业务相关流程,并通过总线矩阵划分到对应的数据域中;声明粒度,指找出需要建模的表的业务主键(一般自增主键ID是没有意义的,除非有业务含义,可以关联),该主键能描述一条数据在这个粒度上的行为;确认维度,建立需要参与分析的维度,比如省份、城市、渠道等;确认事实,确定核心业务指标,比如信贷金额、贷款金额、还款金额等。

翼支付app安全吗_翼支付安全么_翼支付是否安全

维度建模为分析场景提供了重要的维度支撑,通过设置清晰的模型密度,避免因聚合程度不合适导致的模型复杂度和数据准确性下降。良好的维度模型使得数据分析和解读更加直观易懂,提升分析工作的效率和质量。

作为数据仓库建设的一部分,建立规范是至关重要的,重要的规范包括命名规范,涵盖表命名、字段命名、代码命名等。

表命名应体现数据层次结构(如DWD、DWS)、数据域(数据抽象)、产品线、业务流程、刷新/增量标识等,如:。产品线通过公司市场的产品规划以缩写来区分。另外,还有自定义缩写、数据刷新标识、增量标识等规范。字段命名遵循根组规范,如“人数”使用“num”,“次数”使用“cnt”,避免混淆。另外,派生指标的命名要注意不要与原子指标混淆,如:授信人数(原子指标)、近一天授信成功人数(派生指标),命名的原子指标之间不能插入修饰符()。

总的来说,这些命名约定确保了整个数据仓库中数据元素的一致性和可理解性,这对于后续的数据处理和分析至关重要。

在数据仓库的建设中,资产沉淀是保证信息完整、便于管理的关键步骤。在数据仓库建设时,需要规范记录表的基本信息(如库名、表名、负责人)、描述、表生命周期,并建立分区保留策略,确定分区的保留期限。此外,为了方便数据的查找和分类,需要构建数据地图,对每张表进行标注,明确其属于明细层、汇总层还是其他层、产品线。同时,在建表阶段,需要规范表的分类和字段级别。总之,在建表时,需要妥善规划并完成资产的沉淀,避免贪图速度而忽略长远需求,确保数据仓库的可持续管理和利用。

在数据仓库的运行过程中,数据开发任务的启动是关键环节。首先,在完成建表、编写代码后,数据任务在开发平台上通过测试、评审即可部署到生产环境。然后,与代码和表关联的指标也会进行开发,并在指标管理平台上注册。通过SLA确保在下线高峰期,在足够的并发和计算资源下,任务能够按时完成。任务质量也需要监控,包括数据唯一性、枚举有效性、数值检查等,避免数据不合理的波动。最后,需要监控任务的调度,确保任务稳定执行并在计划时间内完成,确保数据及时输出。从数据仓库模型的建立到数据输出,整个流程包括规范、编码、任务启动、指标制定、任务监控。

5. 数据监控

数据质量监控作为数据监控的关键,涵盖了完整性、一致性、时效性等维度。监控不仅限于事前,更重要的是事后的全面回顾,比如管理成千上万的任务,以及计算成本、存储成本等。在数据存储过程中,监控数据存储以优化成本,并通过回顾数据生命周期来决定数据清洗策略。同时,安全监控检查敏感数据是否加密,防止数据泄露,确保数据下载的安全审计。此外,规范监控避免过度引用,确保系统的标准化。最终,风险管理通过定期总结漏洞和制定解决方案来持续降低潜在风险。数据监控旨在维护数据治理的完整性,这是一个长期的过程,而不是一次性事件。

04

数据治理有效性

数据治理实施效果主要体现在成本降低、时间效率提升。当前端到端的全链路治理模式覆盖从ODS层到数据可视化的整个数据流程。2023年,公司前端业务部所有任务都进行了重构和迁移,不仅降低了平台资源消耗高达86%,还显著降低了计算成本,每年节省近1000万元。这种综合治理提高了报表生成速度,解决了资源冲突的问题。

元数据信息的完整性对于后续的监测和二次治理也至关重要,大大减少了人力、物力的投入。

同时对敏感数据进行了分类定级,通过加密、下载审批、记录保留等方式实现了数据安全。

此外,从零开始搭建指标管理平台,提升指标定义效率,后续计划将指标管理与调度平台进行融合,优化资源消耗,简化指标处理,让数据资产得到更有效的管理和利用。

05

未来计划

未来数据仓库规划重点关注以下核心领域。

一是打造数据仓库驾驶舱,整合分散的监控系统,建立统一的综合监控平台,让管理者每天通过邮件的方式,把需要优化、整改的任务发给相关小组。

第二个计划是推动资产管理系统建设,通过大屏展示当前整个数据平台的健康状态,包括:调度平台任务状态、存储状态、资源消耗状态、小文件状态、数据安全状态、各类服务接口状态等。

三是优化指标管理,通过原子指标、统计粒度、业务界限、统计周期四大要素生成数据,减少指标重复处理。

最后,通过标签管理平台、FTP分发、数据接口等数据服务,扩大数据赋能,提升数据的应用价值,实现数据在各类应用场景的有效利用,使数据产生更大的商业价值。

分享