本文以数据收集为讨论主题,从业务流程梳理、原型注意点、项目上线后回顾总结三个方面进行分享。
随着数据量的不断增长,数据的价值逐渐引起了众多企业尤其是业务型企业的关注。大量数据的产生在整合过程中通常被视为一堆无效的、未经探索的数据。占用资源;但一旦被发现,数据的价值将是不可估量的。尤其是电商、银行、服务业等。最近我有幸参与了一个大数据项目。今天我就对采集系统做一个简单的回顾:
数据采集系统顾名思义就是将数据源的数据采集到能够支持大数据架构的环境中,从而实现数据采集,以便后期对数据进行二次处理,建立数据仓库。
1. 业务流程概述
在梳理业务流程的过程中,我们首先预设一个场景,比如:
当公司运营人员提出订单转化率需求时,作为产品人员首先要确定并分析与订单转化率相关的因素,最后从用户下单和支付两个环节进行分析确定,比如该月有多少用户提交了订单。订单、后来有多少用户确认订单、最终有多少用户支付订单等;最后提出漏斗形的分析主题;因此,在分析时,需要确定需要的数据应该从哪些表获取,需要获取哪些数据,获取后应该收集并存储哪些数据。数据仓库中的表最终都会被使用。
那么从上面的例子我们可以从以下几点来思考业务流程:
确定主题和主题模型;确定表格和数据口径;确定需求与目标之间的映射关系;确定需要从哪些来源获取表格和口径,以及数据更新的频率等;
从以上几点我们可以看出,今天对于第一个主题模型我们不会过多介绍。我们重点分析第2点到第4点,将采集系统分为数据源配置、表结构管理、源表管理和映射。配置和采集任务管理模块。
2. 原型注意事项 1. 数据源管理
数据源一般分为多种类型,因此我们需要建立数据源类型;比如蜂巢等
添加数据源时,一般会根据需要确定填写内容的验证。需要填写的字段一般包括源名称、服务器、端口、用户名、密码等。
2.表管理
获取表结构一般有两种方式,一种是连接数据库获取,一种是保存在本地,直接从本地获取。使用哪种方法取决于实际情况。如果使用第二种方法,需要提前整理好表结构并导入到系统中以备后用。
hive的表结构有些特殊。它比一般数据库的表结构多了几个列,比如列名、分区值等。
3. 映射配置
映射配置主要确定源表和目标表,建立字段映射关系;还可以设置过滤条件、数据采集周期配置设置等。
4. 任务管理
主要建立源与表、源与源之间的关系;同时可以设置任务的执行周期;在任务配置过程中,可以以目标源为维度建立任务,也可以以目标表为维度建立任务。监控历史任务。
三、项目启动后回顾总结 1、需求方面
在了解采集系统的初期,由于产品和研发的考虑不同,导致开发初期经过审核对原型和规则进行了一些小改动,但总体需求还是可以接受的。
2、交互方面
由于是B端后端系统,所以一般采用通用的系统框架。因此,在发布需求的过程中,只强调需要注意的交互方式,对一些常见的交互方式不做过多的解释;因此,交互中的沟通成本要多很多。
3、项目执行
整体进度不错,但由于部分组件提前封装定义,导致开发过程中无法满足部分需求,耽误了部分进度。
4. 个人方面
我对数据仓库的理解得到了提高,对SQL的学习也得到了巩固。同时,对于之前遇到的数据需求,我也获得了一些新的思考和回顾。总而言之,这是一次有益的经历。
#专栏作家#
简志清(微信公众号:简志清)是一位为大家服务的产品经理专栏作家。担任互联网产品经理已有5年。曾担任医药产品经理、电商产品经理。主导电商平台系统集成规划。