本文共 640 字,大约阅读时间需要 2 分钟。
先从宏观上了解一下MR运行机制。
(1)jobtracher:管理和调度job
(2)tasktracher: 执行job划分后的task
client提交MR作业后,jobtracher对作业进行调度,并分配给tasktracher去执行,tasktracher和jobtracher间通过心跳(heartbear)来通信。
每个MR任务被初始化为一个job,job分为Map阶段和Reduce阶段,数据传输都是以<key,value>形式。
个人理解:Map阶段主要做对数据的处理,例如对单词的分割,为Reduce阶段做准备。
Reduce阶段,主要做对加工过的数据做统计和自己的业务逻辑。
MR这个模型还是蛮简单的,其中还有很多奥妙的地方,设计的很棒。
输入采用大文件,可以使用CombineFileInputFormat
<1>setup函数:task之前的全局操作。
<2>cleanup函数:task之后的操作。
<3>run函数:控制mr。
<1>可以顺序执行,起一个job的输出作为后一个的输入
<2>借助controlledJob和JobContral类
<3>Job设置预处理和后处理过程
Hadoop MapReduce 对外提供了5个可编程组件,分别是InputFormat、Mapper、partitioner、Reducer和OutputFormat。
转载地址:http://ljrsi.baihongyu.com/