北京华网天下

数据采集系统复盘：业务流程梳理、原型设计与项目上线后的关键总结

2024-12-21

来源：网络整理

本文以数据收集为讨论主题，从业务流程梳理、原型注意点、项目上线后回顾总结三个方面进行分享。

随着数据量的不断增长，数据的价值逐渐引起了众多企业尤其是业务型企业的关注。大量数据的产生在整合过程中通常被视为一堆无效的、未经探索的数据。占用资源；但一旦被发现，数据的价值将是不可估量的。尤其是电商、银行、服务业等。最近我有幸参与了一个大数据项目。今天我就对采集系统做一个简单的回顾：

数据采集系统顾名思义就是将数据源的数据采集到能够支持大数据架构的环境中，从而实现数据采集，以便后期对数据进行二次处理，建立数据仓库。

1. 业务流程概述

在梳理业务流程的过程中，我们首先预设一个场景，比如：

当公司运营人员提出订单转化率需求时，作为产品人员首先要确定并分析与订单转化率相关的因素，最后从用户下单和支付两个环节进行分析确定，比如该月有多少用户提交了订单。订单、后来有多少用户确认订单、最终有多少用户支付订单等；最后提出漏斗形的分析主题；因此，在分析时，需要确定需要的数据应该从哪些表获取，需要获取哪些数据，获取后应该收集并存储哪些数据。数据仓库中的表最终都会被使用。

那么从上面的例子我们可以从以下几点来思考业务流程：

确定主题和主题模型；确定表格和数据口径；确定需求与目标之间的映射关系；确定需要从哪些来源获取表格和口径，以及数据更新的频率等；

从以上几点我们可以看出，今天对于第一个主题模型我们不会过多介绍。我们重点分析第2点到第4点，将采集系统分为数据源配置、表结构管理、源表管理和映射。配置和采集任务管理模块。

数据系统分为_数据系统大概多少钱_大数据系统