Hadoop09-Yarn资源调度

NiuMT 2020-06-03 20:58:30

Hadoop

Yarn基本架构

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。

Yarn工作机制

MR程序提交到客户端所在的节点。
YarnRunner 向 ResourceManager 申请一个 Application。
RM 将该应用程序的资源路径返回给 YarnRunner。
该程序将运行所需资源提交到 HDFS 上。
程序资源提交完毕后，申请运行 mrAppMaster。
RM 将用户的请求初始化成一个 Task。
其中一个NodeManager 领取到Task任务。
该 NodeManager 创建容器 Container，并产生 MRAppmaster。
Container 从 HDFS 上拷贝资源到本地。
MRAppmaster 向 RM 申请运行 MapTask 资源。
RM 将运行MapTask任务分配给另外两个NodeManager，另两个NodeManager分别领取任务并创建容器。
MR 向两个接收到任务的 NodeManager 发送程序启动脚本，这两个 NodeManager 分别启动 MapTask，MapTask 对数据分区排序。
MrAppMaster 等待所有 MapTask 运行完毕后，向 RM 申请容器，运行 ReduceTask。
ReduceTask 向 MapTask 获取相应分区的数据。
程序运行完毕后，MRAppmaster 会向 RM 申请注销自己。

作业提交过程

作业提交过程之HDFS&MapReduce

作业提交过程之YARN

（1）作业提交

第1步：Client调用job.waitForCompletion方法，向整个集群提交MapReduce作业。

第2步：Client向 RM 申请一个作业 id。

第3步：RM 给 Client 返回该 job 资源的提交路径和作业 id。

第4步：Client 提交 jar 包、切片信息和配置文件到指定的资源提交路径。

第5步：Client 提交完资源后，向 RM 申请运行 MrAppMaster。

（2）作业初始化

第6步：当 RM 收到 Client 的请求后，将该 job 添加到容量调度器中。

第7步：某一个空闲的 NM 领取到该 Job。

第8步：该 NM 创建 Container，并产生 MRAppmaster。

第9步：下载 Client 提交的资源到本地。

（3）任务分配

第10步：MrAppMaster 向 RM 申请运行多个 MapTask 任务资源。

第11步：RM 将运行 MapTask 任务分配给另外两个NodeManager，另两个 NodeManager 分别领取任务并创建容器。

（4）任务运行

第12步：MR 向两个接收到任务的 NodeManager 发送程序启动脚本，这两个 NodeManager 分别启动 MapTask，MapTask 对数据分区排序。

第13步：MrAppMaster 等待所有 MapTask 运行完毕后，向 RM 申请容器，运行 ReduceTask。

第14步：ReduceTask 向 MapTask 获取相应分区的数据。

第15步：程序运行完毕后，MR 会向 RM 申请注销自己。

（5）进度和状态更新

YARN 中的任务将其进度和状态(包括counter)返回给应用管理器, 客户端每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新, 展示给用户。

（6）作业完成

除了向应用管理器请求作业进度外, 客户端每5秒都会通过调用waitForCompletion()来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。作业完成之后, 应用管理器和Container会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。

资源调度器

目前，Hadoop作业调度器主要有三种：FIFO、Capacity Scheduler和Fair Scheduler。Hadoop2.7.2/3.1.3 默认的资源调度器是Capacity Scheduler。CDH框架默认调度器是Fair Scheduler。

具体设置详见：yarn-default.xml文件

<property>
    <description>The class to use as the resource scheduler.</description>
    <name>yarn.resourcemanager.scheduler.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>

公平调度器并发高，要求集群配置高
先进先出调度器并发最低，要求集群配置低
容量调度器并发和配置中等

先进先出调度器（FIFO）

优点：简单易懂；

缺点：不支持多队列，生产环境很少使用；

容量调度器（Capacity Scheduler）

Capacity Scheduler 是Yahoo 开发的多用户调度器

公平调度器（Fair Scheduler）

Fair Schedulere 是Facebook 开发的多用户调度器。

任务的推测执行

作业完成时间取决于最慢的任务完成时间

一个作业由若干个Map任务和Reduce任务构成。因硬件老化、软件Bug等，某些任务可能运行非常慢。

思考：系统中有99%的Map任务都完成了，只有少数几个Map老是进度很慢，完不成，怎么办？发现拖后腿的任务，比如某个任务运行速度远慢于任务平均速度。为拖后腿任务启动一个备份任务，同时运行。谁先运行完，则采用谁的结果。

执行推测任务的前提条件：

每个Task只能有一个备份任务;
当前Job已完成的Task必须不小于0.05（5%）；
开启推测执行参数设置。mapred-site.xml文件中默认是打开的。

<property>
      <name>mapreduce.map.speculative</name>
      <value>true</value>
      <description>If true, then multiple instances of some map tasks may be executed in parallel.</description>
</property>

<property>
      <name>mapreduce.reduce.speculative</name>
      <value>true</value>
      <description>If true, then multiple instances of some reduce tasks may be executed in parallel.</description>
</property>

不能启用推测执行机制情况

任务间存在严重的负载倾斜；(如Task执行10亿数据，Task2执行5条数据，Task2执行完后，不能再给Task1开备份任务。)
特殊任务，比如任务向数据库中写数据。

Hadoop08-Hadoop数据压缩

Hadoop11-源码解析