随着大数据产业的发展,大数据生态系统中的相关技术也在不断迭代完善。笔者有幸亲身经历了国内大数据行业从零到一的发展历程。通过这篇文章,希望能够帮助大家快速构建大数据生态系统。完整的知识体系。
当前大数据生态系统中的核心技术总结如图1所示,分为以下9类,下面分别介绍。
1. 数据采集技术框架
数据收集也称为数据同步。随着互联网、移动互联网、物联网等技术的兴起,产生了大量的数据。这些数据分散在各处。我们需要将这些数据融合在一起,然后从这些海量数据中计算出一些有价值的内容。此时您需要做的第一步是收集数据。数据采集是大数据的基础。没有数据收集,就没有大数据!
数据采集技术框架包括以下内容:
、 和 的技术选型如图2所示:
和之间的技术选型如图3所示:
和之间的技术选型如图4所示:
2. 数据存储技术框架
数据的快速增长推动了技术的发展,出现了一批优秀的支持分布式存储的存储系统。
数据存储技术框架包括HDFS、Kudu等。
3. 分布式资源管理框架
在传统IT领域,企业服务器资源(内存、CPU等)是有限且固定的。但服务器的应用场景是灵活多变的。例如,今天一个系统暂时在线,需要多台服务器。几天后,系统需要离线,并且需要清理这些服务器。
在大数据时代到来之前,服务器资源的变化对应着系统的上下线,而这些变化是有限的。随着大数据时代的到来,临时任务的需求大大增加,而这些任务往往需要大量的服务器资源。此时依靠运维人员手动处理服务器资源的变更显然是不现实的。因此,分布式资源管理系统应运而生,常见的有YARN、YARN、YARN。其典型应用领域如图5所示。
4. 数据计算技术框架
数据计算分为离线数据计算和实时数据计算。
1、离线数据计算
经过十多年的发展,大数据中的离线数据计算引擎迄今已发生了三大变化。
2. 实时数据计算
业界最典型的实时数据计算场景是天猫“双十一”大数据屏。数据大屏上显示的总交易金额、总订单量等数据指标都是实时计算的。用户购买商品后,大数据屏上会实时将商品金额添加到交易总金额中。
他与 的区别如表 4 所示。
、 、 、 之间的技术选择如图6所示。
目前企业中主要采用离线计算,而实时计算则以实时计算为主。
5. 数据分析技术框架
数据分析技术框架包括Hive、、、、、、等,其典型应用场景如图7所示。
Hive、Hive和Hive是典型的离线OLAP数据分析引擎,主要应用于离线数据分析领域。它们之间的差异如表5所示。
表5
、 、 、 是典型的实时OLAP数据分析引擎,主要应用于实时数据分析领域。它们之间的差异如表6所示。
6. 任务调度技术框架
包括,,等等。它们适合调度平时执行的例行任务,以及包含复杂依赖关系的多级任务。它们支持分布式并保证调度系统的性能和稳定性。它们之间的差异如表7所示。
他们之前的技术选择如图 8 所示。
7. 大数据底层基础技术框架
大数据的底层基础技术框架主要指的是。主要提供常用的基础功能(例如:命名空间、配置服务等),用于大数据生态系统中(HA)等技术组件的运行。
8.数据检索技术框架
随着企业数据的逐渐积累,海量数据统计分析的需求将越来越多样化:不仅是分析,还需要快速、复杂的多条件查询。例如,电子商务网站中的产品搜索功能和各种搜索引擎中的信息检索功能都属于快速复杂的多条件查询的范畴。
在选择全文搜索引擎工具时,可以从易用性、扩展性、稳定性、集群运维难度、项目集成度、社区活跃度等方面进行比较。 、Solr及比较如表8所示。
9、大数据集群安装与管理框架
企业想要从传统数据处理向大数据处理转型,首先要做的就是构建稳定可靠的大数据平台。
一个完整的大数据平台需要包括数据采集、数据存储、数据计算、数据分析、集群监控等功能,这意味着需要包括Hive、Hive等组件,这些组件需要部署在数百台机器上。即使在数千台机器中。
如果依靠运维人员单独安装各个组件,工作量会比较大,并且需要考虑版本之间的匹配问题和各种冲突,而且后期的集群维护工作也会给集群带来很大的压力。操作和维护人员。
因此,国外一些厂商将大数据中的组件封装起来,提供了一个集成的大数据平台,可以用来快速安装大数据组件。目前业界最常见的有CDH、HDP、CDP等。
三者之间的关系如图9所示。
以上内容来自《大数据技术与建筑插画实战派》一书。