加入收藏 | 设为首页 | 会员中心 | 我要投稿 晋中站长网 (https://www.0354zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据组件,你知道那一块?

发布时间:2022-12-08 14:32:51 所属栏目:大数据 来源:转载
导读: 说到大数据,大家都不陌生,可能说清楚大数据的,并不多。
今天来扒一扒大数据的技术体系架构,方便大家更好地学习和了解大数据知识。
大数据技术体系的整体架构如下图所示:

从数据采集到

说到大数据,大家都不陌生,可能说清楚大数据的,并不多。

今天来扒一扒大数据的技术体系架构,方便大家更好地学习和了解大数据知识。

大数据技术体系的整体架构如下图所示:

大数据存储分析_大数据量的存储中心_大数据存储

从数据采集到使用的视角来看,数据技术体系分为:数据源、数据集成、数据存储、数据计算、数据分析、数据应用。

从数据管理的视角来看,数据技术体系分为:数据安全和运维体系、数据治理。

接下来给大家一一介绍下各大技术体系。

作为大数据的源头,数据源有三种形式:结构化数据、半结构化数据、非结构化数据。

结构化数据:常见以业务系统为单位,存储在关系型数据库中的数据。

半结构化数据:例如XML,CSV、jason等格式数据,称之为非结构化数据。

非结构化数据:图片、视频、音频等,属于非结构化数据。

各个数据源常以业务系统为单位,形成一个个数据孤岛,无法统一存储和关联分析,因此需要数据集成工具,将数据统一汇聚与存储。

数据集成就是通过离线同步、实时同步的方式,将散落在各数据源的数据,汇聚集成到大数据存储组件,例如HDFS。常见开源工具有Sqoop、DataX、Canal等,不同的场景,可使用不同的集成工具。

大数据存储常见的技术组件是HDFS,具有分布式、高可扩展,高可用,高容错性,可基于廉价的硬盘,存储海量数据。

数据从一开始的非标准化、经一系列计算与加工形成信息,进而形成知识,供企业经营决策,需要大量的数据计算和开发工作。

数据计算有批量离线计算和实时计算之分,两者的区别表现在时延上。举一个例子,执行一个SQL统计,离线计算需要半个小时,甚至一两天,在线计算1秒甚至毫秒就能得到结果,诚然离线计算和实时计算应用场景是不一样的,离线计算常应用于T+1的报表与分析,实时计算应用于实时分析、实时查询、实时推荐等在线实时业务场景。

离线计算组件用的最多的是MapReduce,是基于硬盘计算,中间结果存储在硬盘上,数据吞吐量大。

在线计算有Spark,Storm,是基于内存的计算引擎,虽然速度可达到毫秒级,但是吞吐量有限。

数据经过计算组件的计算和加工后,得到了标准化数据,这部分数据大部分为结构化数据,少部分为列式存储的K-V型数据,业内常把经清洗加工,维度建模后的数据存储于数仓中。数据分析是基于数仓的SQL引擎,用户可基于数据分析工具使用SQL语句,做数据的统计与分析,常见数据统计与分析的组件有PIG,HIVE(既能做数仓、也能使用HQL进行统计分析)。

数据统计分析只是初级的应用,高级的应用是数据挖掘,挖掘数据背后的规律,以便实现更高级的数据智能应用。常见的有Mahout、Spark Mlib。

企业一般有很多数据开发任务在同时运行,每个任务有多个逻辑依赖的节点,而且开发任务的时效性还不一样,有些是定时执行,有些是实时执行,多个任务并行时,也有优先级的区别,例如有些领导必看的报表,是必须在第二天八点之前完成,因此在资源性能没法保障的前提下,任务调度需将资源向优先级高的任务倾斜。

总的来说,任务调度有两个层面调度功能:一是定时任务调度;二是基于资源的优先级调度。

常见的开源调度组件有Oozie、Azkaban、Airflow等。

数据开发任务多的时候,如果资源分配上,没有统一的管理,那就非常混乱。

资源管理,就是负责各开发任务JOB的资源分配和管理,资源管理可将计算资源虚拟成一个虚拟计算资源池,这样就可以根据JOB的负载合理分配CPU和内存,当调度引擎和资源管理组件集成时,即可实现优先级的智能调度。常用的资源管理开源组件有Yarn。

大数据都是分布式的大数据存储,分布式就涉及到Leader的选举、主备切换、数据一致性保障等机制,分布式协调就能实现上述功能,负责所有分布式组件的统一协调和管理,保证集群运行的高可用、高可靠。常用的分布式协调组件有Zookeeper。

数据最终是要赋能业务的,被使用的数据,才能体现价值。在数据应用侧,分为两类:数据可视化、数据智能应用。

数据可视化:最常见的就是报表、数据大屏、领导驾驶舱。企业使用数据分析报表,用来指导经营决策。例如阿里双十一的作战大屏,交易额、订单量、各省份的交易总量实时表现在大屏上,是数据可视化的典型应用。

数据智能应用:需要使用算法模型,来支撑数据智能应用,而且此类应用往往体现为业务系统上的一个功能,常常用到实时计算的能力,结果会毫秒级或秒级进行展现。例如智能推荐、销量预测、智能补货、反欺诈、风控等应用场景。

数据安全的重要性毋庸置疑,大数据是数据的聚集地,一旦发生信息安全事故,后果不堪设想,因此需要从技术、管理、组织上实现数据安全的管理。

大数据运维,就是需要运维团队、运维流程等机制,保证大数据各组件可用,出现问题,有成熟的响应机制,快速排查和解决问题。

数据治理就是一套集战略、管理、组织、运营、技术于一体的机制,具体可从数据标准、数据质量、数据安全、数据生命周期、数据共享、数据价值、元数据管理等方面展开。数据治理最终的目的,是要保证数据质量,让数据可见,可用,可运营。

希望看了这篇文章,大家能对大数据技术体系有整体和全面的认识。感谢大家关注。

(编辑:晋中站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!