Hadoop大数据通用处理平台

发布时间：2019-03-18 20:30:41 所属栏目：教程来源：Java的小本家

导读：Hadoop是一款开源的大数据通用处理平台，其提供了分布式存储和分布式离线计算，适合大规模数据、流式数据(写一次,读多次)，不适合低延时的访问、大量的小文件以及频繁修改的文件。 *Hadoop由HDFS、YARN、MapReduce组成。如果想学习Java工程化、高性能及分

Hadoop默认没有开启机架感知功能，默认情况下每个Block都是随机分配DataNode，需要进行相关的配置，那么在NameNode启动时，会将机器与机架的对应信息保存在内存中，用于在HDFS Client申请写文件时，能够根据预先定义的机架关系合理的分配DataNode。

Hadoop机架感知默认对3个副本的存放策略为：

*使用此策略可以保证对文件的访问能够优先在本机架下找到，并且如果整个机架上发生了异常也可以在另外的机架上找到该Block的副本。

2.2 YARN

YARN是分布式资源调度框架(任务计算框架的资源调度框架)，主要负责集群中的资源管理以及任务调度并且监控各个节点。

ResourceManager

NodeManager

ApplicationMaster

任务运行在YARN的流程

客户端提交任务请求到ResourceManager。

ResourceManager生成一个ApplicationManager进程，用于任务的管理。
ApplicationManager创建一个Container容器用于存放任务所需要的资源。
ApplicationManager寻找其中一个NodeManager，在此NodeManager中启动一个ApplicationMaster，用于任务的管理以及监控。
ApplicationMaster向ResourceManager进行注册，并计算任务所需的资源汇报给ResourceManager(CPU与内存)
ResourceManager为此任务分配资源，资源封装在Container容器中。
ApplicationMaster通知集群中相关的NodeManager进行任务的执行。
各个NodeManager从Container容器中获取资源并执行Map、Reduce任务。

2.3 MapReduce

MapReduce是分布式离线并行计算框架，高吞吐量，高延时，原理是将分析的数据拆分成多份，通过多台节点并行处理，相对于Storm、Spark任务计算框架而言，MapReduce是最早出现的计算框架。

MapReduce、Storm、Spark任务计算框架对比：