教程学习笔记 Hadoop MapReduce

数据分析

发布日期: 2020-10-25

文章字数: 14.8k

阅读时长: 66 分

阅读次数:

1 MapReduce概述

1.1 MapReduce定义

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的
数据分析应用”的核心框架。
MapReducet核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个
完整的分布式运算程序，并发运行在一个Hadoop集群上。

1.2 MapReduce优缺点

1.2.1 优点

MapReduce易于编程
它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个特点使得MapReduce编程变得非常流行。
良好的扩展性
当尔的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。
高容错性
MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由Hadoop内部完成的。
适合PB级以上海量数据的离线处理
可以实现上千台服务器集群并发工作，提供好据处理能力。

1.2.2 缺点

不擅长实时计算
MapReduce无法像MySQL一样，在毫秒或者秒级内返回结果。
不擅长流式计算
流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。
不擅长DAG（有向图）计算
多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情兄下，MapReduce并不是不能做，而是使用后，每个MapReducef作业的输出结果都会写入到磁盘，会造成大量的磁盘I/O，导致性能非常的低下。

1.3 MapReduce核心思想

图1.1 MapReduce核心编程思想

分布式的运算程序往往需要分成至少2个阶段。

第一个阶段的MapTask并发实例，完全并行运行，互不相干。
第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。
MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行。

1.4 MapReduce进程

一个完整的MapReduce程序分布式运行时有三类实例进程：

MrAppMaster：负责整个程序的过程调度及状态协调。
MapTask：负责Map阶段的整个数据处理流程。
ReduceTask：负责Reduce阶段的整个数据处理流程。

1.5 官方WordCount源码

采用反编译工具反编译源码，发现WordCount案例有Map类、Reduce类和驱动类。且数据的类型是Hadoop自身封装的序列化类型。

Tip：

序列化 (Serialization)是将对象的状态信息转换为可以存储或传输的形式的过程。在序列化期间，对象将其当前状态写入到临时或持久性存储区。以后，可以通过从存储区中读取或反序列化对象的状态，重新创建该对象。详情见第2章。

1.6 常用数据序列化类型

表1.1 常用的数据类型对应的Hadoop数据序列化类型

Java类型	Hadoop Writable类型
boolean	BooleanWritable
byte	ByteWritable
int	IntWritable
float	FloatWritable
long	LongWritable
double	DoubleWritable
String	Text
map	MapWritable
array	ArrayWritable

Tip：有关IntWritable等序列化类型使用详见博客《IntWritable详解》

1.7 MapReduce编程规范

用户编写的程序分成三个部分：Mapper、Reducer和Driver。

Mapper阶段

（1）用户自定义的Mapper要继承自己的父类
（2）Mapper的输入数据是KV(Key-Value)对的形式(KV的类型可自定义)
（3）Mapper中的业务逻辑写在map()方法中
（4）Mapper的输出数据是KV(Key-Value)对的形式(KV的类型可自定义)
（5）map()方法（MapTask进程）对每一个初始输入数据的<K,V>调用一次

Reduce阶段

（1）用户自定义的Reducer要继承自己的父类
（2）Reducer的输入数据类型对应Mapper的输出数据类型，也是KV对
（3）Reducer的业务逻辑写在reduce()方法中
（4）ReduceTask进程对Mapper阶段输出的每一组相同k的<k,v>组调用一次reduce()方法

Driver阶段

相当于YARN集群的客户端，用于提交我们整个程序到YARN集群，提交的是封装了MapReduce程序相关运行参数job对象。

1.8 WordCount案例实操

需求

在给定的文本文件中统计输出每一个单词出现的总次数

（1）输入数据为文本文件：hello.txt
（2）期望输出数据：

atguigu	2
banzhang	1
cls	2
hadoop	1
jiao	1
ss	2
xue	1

需求分析

按照MapReduce编程规范，分别编写Mapper，Reducer，Driver，如图1.2：

图1.2 WordCount案例需求分析

环境准备

（1）创建maven工程

（2）在pom.xml文件中添加如下依赖

<dependencies>
		<dependency>
			<groupId>junit</groupId>
			<artifactId>junit</artifactId>
			<version>RELEASE</version>
		</dependency>
		<dependency>
			<groupId>org.apache.logging.log4j</groupId>
			<artifactId>log4j-core</artifactId>
			<version>2.8.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-common</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-client</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-hdfs</artifactId>
			<version>2.7.2</version>
		</dependency>
</dependencies>

（2）在项目的src/main/resources目录下，新建一个文件，命名为“log4j.properties”，在文件中填入如下内容：

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

编写程序

（1）编写Mapper类

import java.io.IOException;

import javax.sound.sampled.Line;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;  
// 注意导入正确jar包：xxx.io.Text
import org.apache.hadoop.mapreduce.Mapper;

import com.sun.tools.classfile.StackMapTable_attribute.verification_type_info;

/**
 * Map阶段
 * @param 
 * KEYIN 输入数据的key
 * VALUEIN 输入数据的value
 * KEYOUT 输出数据的key的类型
 * VALUEOUT 输出数据的value类型
 */

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
	Text k =new Text();
	IntWritable  v = new IntWritable(1);
	
	@Override
	protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{
		// 文本内容为： atguigu atguigu
		
		// 1  获取1行
		String line =value.toString();
		
		// 2 切割单词
        // 注意切割符号要正确，不然结果会出现偏差
		String[] words = line.split(" "); 
		
		// 3 循环写出
		for(String word:words) {
			
			// set()将word设置为Text的值
			k.set(word);
			
			context.write(k, v);
			
		}
	}
	
}

（2）编写Redcuer类

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;  
// 注意导入正确的jar包：xxx.mapreduce.Reducer

// KEYIN VALUEIN map阶段输出的key和value
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
	
	IntWritable  v = new IntWritable();
	
	// Iterable<IntWritable>为类型为IntWritable的迭代器
	@Override
	protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException{
		// 输入数据为： <atguigu,1> <atguigu,1>
		int sum=0;
		
		// 1 累加求和
		for(IntWritable value:values) {
			sum += value.get();
		}
		
		v.set(sum);
		
		// 2 写出atguigu 2
		context.write(key, v);
	}
}

（3）编写Driver驱动类

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;  
// 注意导入正确jar包：xxx.conf.Configuration
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;  
// 注意导入正确jar包：xxx.mapreduce.Job
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
// 注意导入正确jar包：xxx.lib.input.FileInputFormat
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
// 注意导入正确jar包：xxx.lib.output.FileOutputFormat

public class WordCountDriver {
	public static void main(String args[]) throws IOException, ClassNotFoundException, InterruptedException {
		
		Configuration conf= new Configuration();
		// 1 获取job对象
		Job job = Job.getInstance(conf);
		
		// 2 设置jar存储位置
		// setJar()表示设置固定的jar存储位置
		// setJarByClass()表示设置随主类变化的动态jar存储位置
		job.setJarByClass(WordCountDriver.class);
		
		// 3 关联Map和Reduce类
		job.setMapperClass(WordCountMapper.class);
		job.setReducerClass(WordCountReducer.class);
		
		// 4  设置Mapper阶段输出数据的key和value类型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		
		// 5 设置最终输出数据的key和value类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		// 6 设置输入路径和输出路径，路径设置为传参
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		// 7 提交job
		// job.submit();  过时方法
		boolean result = job.waitForCompletion(true); // 如果传参为true，在成功提交后会打印相关信息
		
		System.exit(result? 0 : 1);
	}
}

本地测试

（1）如果电脑系统是win7的就将win7的hadoop jar包解压到非中文路径，并在Windows环境上配置HADOOP_HOME环境变量。如果是电脑win10操作系统，就解压win10的hadoop jar包，并配置HADOOP_HOME环境变量。

Tip：win8电脑和win10家庭版操作系统可能有问题，需要重新编译源码或者更改操作系统。

（2）在Eclipse/Idea上运行程序，如图1.3：

图1.3 RunConfiguration设置

Tip：输出路径目录必须未创建，不然会报错。

集群上测试

（0）用maven打jar包，需要添加的打包插件依赖

Tip：

标记红颜色的部分需要替换为自己工程主类。
如果工程上显示红叉。在项目上右键->maven->update project即可。

<build>
		<plugins>
			<plugin>
				<artifactId>maven-compiler-plugin</artifactId>
				<version>2.3.2</version>
				<configuration>
					<source>1.8</source>
					<target>1.8</target>
				</configuration>
			</plugin>
			<plugin>
				<artifactId>maven-assembly-plugin </artifactId>
				<configuration>
					<descriptorRefs>
						<descriptorRef>jar-with-dependencies</descriptorRef>
					</descriptorRefs>
					<archive>
						<manifest>
							<mainClass>com.atguigu.mr.WordcountDriver</mainClass>
						</manifest>
					</archive>
				</configuration>
				<executions>
					<execution>
						<id>make-assembly</id>
						<phase>package</phase>
						<goals>
							<goal>single</goal>
						</goals>
					</execution>
				</executions>
			</plugin>
		</plugins>
</build>

（1）将程序打成jar包，然后拷贝到Hadoop集群中

步骤详情：右键->Run as->maven install。等待编译完成就会在项目的target文件夹中生成jar包。如果看不到。在项目上右键–>Refresh，即可看到。修改不带依赖的jar包名称为wc.jar，并拷贝该jar包到Hadoop集群。

（2）启动Hadoop集群，可以启动伪分布式模式，但是一定要先启动NameNode和DataNode进程，再启动yarn进程，否则DataNode进程会yarn进程被屏蔽。

（3）执行WordCount程序

[atguigu@hadoop102 hadoop-2.7.2]$ hadoop jar wc.jar mr.WordCountDriver /user/atguigu/input /user/atguigu/output

Tip：

com.atguigu.wordcount.WordcountDriver为驱动类的全类名，在Eclipse里面右键点击类名选择”Copy Qualified Name”即可。
输入输出路径是本地路径还是集群路径由集群的运行模式决定，如果是本地模式则输入本地路径，伪分布式和完全分布式输入集群路径。
如图1.4报错无法操作存储节点，原因是DataNode被yarn进程屏蔽

图1.4 DataNode被yarn进程屏蔽报错无法操作存储节点

如图1.5报错无法连接，原因是未启动yarn

图1.5 未启动yarn报错无法连接

2 Hadoop序列化

2.1 序列化概述

2.1.1 什么是序列化

序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。
反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。

2.1.2 为什么要序列化

一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机。

2.1.3 为什么不用Java的序列化

Java的序列化是一个重量级序列化框架(Serializable)，一个对象被序列化后，会附带很多额外的信息（各种校验信息，Header，继承体系等），不便于在网络中高效传输。所以，Hadoop自己开发了一套序列化机制(Writable) 。

2.1.4 Hadoop排序列化特点

紧凑：高效使用存储空间。
快速：读写数据的额外开销小。
可扩展：可随着通信协议的升级而升级。
互操作：支持多语言的交互。

Tip：读写数据的额外开销指的是由于提供检索而额外产生的存储开销等。

2.2 自定义bean对象实现序列化接口（Writable）

在企业开发中往往常用的基本序列化类型不能满足所有需求，比如在Hadoop框架内部传递一个bean对象，那么该对象就需要实现序列化接口。

Tip：JavaBean简单的讲就是实体类，用来封装对象，这个类里面全部都是属性值和get，set方法。

具体实现bean对象序列化步骤如下6步。

必须实现Writable接口
反序列化时，需要反射调用空参构造函数，所以必须有空参构造

public FlowBean() {
	super();
}

重写序列化方法

@Override
public void write(DataOutput out) throws IOException {
	out.writeLong(upFlow);
	out.writeLong(downFlow);
	out.writeLong(sumFlow);
}

重写反序列化方法

@Override
public void readFields(DataInput in) throws IOException {
	upFlow = in.readLong();
	downFlow = in.readLong();
	sumFlow = in.readLong();
}

Tip：注意反序列化的顺序和序列化的顺序要求完全一致，理由是序列化存储到磁盘采用的是队列式传输，先进先出，则先序列化的对象先存储，在磁盘读取时先反序列化最先序列化的对象。

要想把结果显示在文件中，需要重写toString()，可用”\t”分开，方便后续用。
如果需要将自定义的bean放在key中传输，则还需要实现Comparable接口，因为MapReduce框中的Shuffle过程要求对key必须能排序。详见后面排序案例。

@Override
public int compareTo(FlowBean o) {
	// 倒序排列，从大到小
	return this.sumFlow > o.getSumFlow() ? -1 : 1;
}

2.3 序列化案例实操

2.3.1 需求

目标：统计每一个手机号耗费的总上行流量、下行流量、总流量。

输入数据：phone_data.txt
输入数据格式

7 	13560436666	120.196.100.99		1116	 954		200
id	手机号码		网络ip			上行流量  下行流量     网络状态码

期望输出数据格式

13560436666 	   1116		      954 			2070
手机号码		    上行流量        下行流量		总流量

2.3.1 需求分析

Map阶段

（1）读取一行数据，切分字段

7 	13560436666	120.196.100.99		1116	 954		200

（2）抽取手机号、上行流量、下行流量

13560436666	   1116	    954
手机号码		上行流量  下行流量

（3）以手机号为key，bean对象为value输出，即context.write(手机号,bean);

（4）bean对象要想能够传输，必须实现序列化接口

Reduce阶段

（1）累加上行流量和下行流量得到总流量。

13560436666	   1116	 +  954   =  2070
手机号码		上行流量  下行流量   总流量

2.3.3 编写MapReduce程序

编写流量统计的Bean对象

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.Writable;

// 1 实现writable接口
public class FlowBean implements Writable{
	
	private long upFlow;
	private long downFlow;
	private long sumFlow;
	
	// 2 反序列化时，需要反射调用空参构造函数，所以必须定义空参构造函数
	public FlowBean() {
		super();
	}
	
    // 注意补充this.sumFlow = upFlow + downFlow;
	public FlowBean(long upFlow, long downFlow) {
		super();
		this.upFlow = upFlow;
		this.downFlow = downFlow;
		this.sumFlow = upFlow + downFlow;
	}
	
	// 3  序列化方法
	@Override
	public void write(DataOutput out) throws IOException {
		out.writeLong(upFlow);
		out.writeLong(downFlow);
		out.writeLong(sumFlow);
	}
	
	// 4 反序列化方法
	// 反序列化方法读顺序必须和写序列化方法的写顺序必须一致
	@Override
	public void readFields(DataInput in) throws IOException {
		this.upFlow=in.readLong();
		this.downFlow=in.readLong();
		this.sumFlow=in.readLong();
	}

	// 6 编写toString方法，方便后续打印到文本，注意使用"\t"隔开
	@Override
	public String toString() {
		return upFlow + "\t" + downFlow + "\t" + sumFlow;
	}

	public long getUpFlow() {
		return upFlow;
	}

	public void setUpFlow(long upFlow) {
		this.upFlow = upFlow;
	}

	public long getDownFlow() {
		return downFlow;
	}

	public void setDownFlow(long downFlow) {
		this.downFlow = downFlow;
	}

	public long getSumFlow() {
		return sumFlow;
	}

	public void setSumFlow(long sumFlow) {
		this.sumFlow = sumFlow;
	}
	
}

Tip：构造函数和get与set方法可以由Eclipse自动生成，点击右键–>”source”–>选择想要生成的方法，然后选择需要传入的参数即可。

编写Mapper类

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
// 注意导入正确jar包，Text类的包很容易导入错误
import org.apache.hadoop.mapreduce.Mapper;

// LongWritable代表行的偏移量，Text代表这一行的内容
public class FlowCountMapper extends Mapper<LongWritable, Text, Text, FlowBean>{
	
	// map方法需要循环多次调用，所以两个输出变量定义在map方法外
	FlowBean v = new FlowBean();
	Text k = new Text();		// 用Text类型变量代表手机号
	
	// 1 获取1行
	@Override
	public void map(LongWritable key,Text value,Context context) throws IOException, InterruptedException {
		// 1 获取1行
		String line = value.toString();
		
		// 2 切割字段
		String[] fields = line.split("\t");
		
		// 3 封装对象
		// 取出手机号码
		String phoneNum = fields[1];
		
		// 取出上行流量和下行流量
		long upFlow = Long.parseLong(fields[fields.length-3]);
		long downFlow = Long.parseLong(fields[fields.length-2]);
		
		k.set(phoneNum);
		// v.setUpFlow(upFlow);
		// v.setDownFlow(downFlow);
		// 也可在FlowBean里面定义set(downFlow,upFlow);
		v.set(upFlow,downFlow);
		
		// 4 写出
		context.write(k, v);
	}
}

编写Reducer类

import java.io.IOException;

import org.apache.hadoop.io.Text;
// 注意导入正确jar包，Text类的包很容易导入错误
import org.apache.hadoop.mapreduce.Reducer;

public class FlowCountReducer extends Reducer<Text, FlowBean, Text, FlowBean>{
	@Override
	protected void reduce(Text key, Iterable<FlowBean> values, Context context) throws IOException, InterruptedException {
		long sum_upFlow=0;
		long sum_downFlow=0;
		
		// 1 遍历所有bean，将其中的上行流量，下行流量分别累加
		for(FlowBean flowBean:values) {
			sum_upFlow+=flowBean.getUpFlow();
			sum_downFlow+=flowBean.getDownFlow();
		}
		
		// 2 封装对象
		FlowBean resultBean = new FlowBean(sum_upFlow,sum_downFlow);
		
		// 3 写出
		context.write(key, resultBean);
	}
}

编写Driver驱动类

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
// 注意导入正确jar包，Text类的包很容易导入错误
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FlowCountDriver {
	public static void main(String args[]) throws IllegalArgumentException, IOException, ClassNotFoundException, InterruptedException {
		// 加入此行代码后在本地测试时不必再设置run configuration
        // 但在集群运行时需要把此行代码删去
		args = new String[] {"d:/input/inputFlow","d:/outputFlow"};
		
		Configuration conf = new Configuration();
		// 1 获取job对象
		Job job=Job.getInstance(conf);
		
		// 2 设置jar路径
		job.setJarByClass(FlowCountDriver.class);
		
		// 3 关联mapper和reducer
		job.setMapperClass(FlowCountMapper.class);
		job.setReducerClass(FlowCountReducer.class);
		
		// 4 设置mapper输出的key和value类型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(FlowBean.class);
		
		// 5 设置最终输出的key和value类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(Text.class);
		
		// 6 设置输入输出路径
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		// 7 提交job
		boolean result = job.waitForCompletion(true);
		
		System.exit(result?0:1);
	}
}

3 MapReduce框架原理

3.1 InputFormat数据输入

3.1.1 切片与MapTask并行度决定机制

问题引出

MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。
1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高集群性能吗？MapTask并行任务是否越多越好呢？哪些因素影响了MapTask并行度？

MapTask并行度决定机制

数据块：Block是HDFS物理上把数据分成一块一块。
数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。
MapTask并行度决定机制如图3.1：

图3.1 MapTask并行度决定机制

当切片大小为BlockSize时效率最高，因为此时的I/O开销很小。

3.1.2 Job提交流程源码和切片源码详解

Job提交流程源码详解

（1）源码结构如下：

waitForCompletion()

submit();

// 1建立连接
	connect();	
		// 1）创建提交Job的代理
		new Cluster(getConfiguration());
			// （1）判断是本地yarn还是远程
			initialize(jobTrackAddr, conf); 

// 2 提交job
submitter.submitJobInternal(Job.this, cluster)
	// 1）创建给集群提交数据的Stag路径
	Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);

	// 2）获取jobid ，并创建Job路径
	JobID jobId = submitClient.getNewJobID();

	// 3）拷贝jar包到集群
copyAndConfigureFiles(job, submitJobDir);	
	rUploader.uploadFiles(job, jobSubmitDir);

// 4）计算切片，生成切片规划文件
writeSplits(job, submitJobDir);
		maps = writeNewSplits(job, jobSubmitDir);
		input.getSplits(job);

// 5）向Stag路径写XML配置文件
writeConf(conf, submitJobFile);
	conf.writeXml(out);

// 6）提交Job,返回提交状态
status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

（2）Job提交流程图解，如图3.2：

图3.2 Job提交流程图解

FileInputFormat切片源码解析(input.getSplits(job))

（1）程序先找到数据存储的目录。
（2）开始遍历处理（规划切片）目录下的每一个文件。
（3）遍历第一个文件ss.txt

获取文件大小fs.sizeOf(ss.txt)；
计算切片大小；
computeSplitSize(Math.max(minSize, Math.min(maxSize, blocksze)))=blocksize=128M
默认情况下，切片大小=blodksize；
开始切，形成第1个切片: ss.txt—0:128M第2个切片ss.txt—128:256M第3个切片ss.txt—256M:300M；
(每次切片时，都要判断切完剩下的部分是否大于块的1.1倍，不大于1.1倍就划分成一块切片
将切片信息写到一个切片规划文件中；
整个切片的核心过程在getSplit()方法中完成；
lnputSplit只记录了切片的元数据信息，比如起始位置、长度以及所在的节点列表等。

（4）提交切片规划文件到YARN上，YARN上的MapReducer就可以很据切片规划文件计算开启MapTask个数。

Tip：本地模式的BlockSize为32M，Hadoop 1.x为64M，Hadoop 2.x为128M。

3.1.3 FileInputFormat切片机制

切片机制

（1）简单地按照文件的内容长度进行切片；

（2）切片大小，默认等于Block大小；

（3）切片时不考虑数据集整体，而是逐个针对每一个文件单独切片。

FileInputFormat切片大小的参数配置

（1）源码中计算切片大小的公式

Math.max(minSize, Math.min(maxSize,blockSize));

// mapreduce.input.fileinputformat.split.minize=1，默认值为1
// mapreduce.input.fileinputformat.split.maxsize=Long.MAXValue，默认值是Long.MAXValue
// 默认情况下，切片大小=blockSize

（2）切片大小设置

maxsize（切片最大值）：参数如果调得比blockSize小，则会让切片变小，而且就等于配置的这个参数的值。

minsize（切片最小值）参数如果调得比blocksize大，则可以让切片变得比blockSize还大。

（3）获取切片信息API

// 获取切片的文件名称
String name = inputSplit.getPath().getName();
// 根据文件类型获取切片信息
FileSplit inputSplit = (FileSplit)context.getInputSplit();

3.1.4 CombineTextInputFormat切片机制

框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其低下。

应用场景

CombineTextInputFormat用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个MapTask处理。

虚拟存储切片最大值设置

CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);   // 4m

Tip：虚拟存储切片最大值设置最好根据实际的小文件大小分布情况来设置具体的值。

切片机制

生成切片过程包括：虚拟存储过程和切片过程二部分。

图3.3 CombineTextInputFormat切片机制

（1）虚拟存储过程：

将输入目录下所有文件大小，依次和设置的setMaxInputSplitSize值比较，如果不大于设置的最大值，逻辑上划分一个块。如果输入文件大于设置的最大值且大于两倍，那么以最大值切割一块；当剩余数据大小超过设置的最大值且不大于最大值2倍，此时将文件均分成2个虚拟存储块（防止出现太小切片）。
例如setMaxInputSplitSize值为4M，输入文件大小为8.02M，则先逻辑上分成一个4M。剩余的大小为4.02M，如果按照4M逻辑划分，就会出现0.02M的小的虚拟存储文件，所以将剩余的4.02M文件切分成（2.01M和2.01M）两个文件。

（2）切片过程：

（a）判断虚拟存储的文件大小是否大于setMaxInputSplitSize值，大于等于则单独形成一个切片。
（b）如果不大于则跟下一个虚拟存储文件进行合并，共同形成一个切片。
（c）测试举例：有4个小文件大小分别为1.7M、5.1M、3.4M以及6.8M这四个小文件，则虚拟存储之后形成6个文件块，大小分别为：
1.7M，（2.55M、2.55M），3.4M以及（3.4M、3.4M）
最终会形成3个切片，大小分别为：
（1.7+2.55）M，（2.55+3.4）M，（3.4+3.4）M

3.1.5 CombineTextInputFormat案例实操

需求：将输入的大量小文件合并成一个切片统一处理。

（1）输入数据：准备4个小文件

（2）期望：期望1个切片处理4个文件

实现过程

（1）不做任何处理，运行WordCount案例程序（自行准备4个小文件，大小对应3.1.4节中四个小文件大小），在控制台观察打印信息，显示切片个数为4。

number of splits:4

（2）在WordcountDriver中增加如下代码，运行程序，并观察运行的切片个数为3。

在驱动类中添加代码如下：

// 如果不设置InputFormat，它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虚拟存储切片最大值设置4m
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);

在控制台观察打印信息，运行结果为3个切片

number of splits:3

（3）在WordcountDriver中增加如下代码，运行程序，并观察运行的切片个数为1。

在驱动类中添加代码如下：

// 如果不设置InputFormat，它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虚拟存储切片最大值设置20m
CombineTextInpu

在控制台观察打印信息，运行结果为3个切片

number of splits:1

3.1.6 FileInputFormat实现类

Q：在运行MapReduce程序时，输入的文件格式包括:基于行的日志文件、二进制格式文件、数据库表等。那么，针对不同的数据类型，MapReduce是如何读取这些数据的呢?
A：FileInputFormat常见的接口实现类包括：TextInputFormat 、KeyValueTextInputFormat、NLineInputF ormat、CombineTextInputFormat和自定义InputFormat等。

Tip：在Eclipse中点击FileInputFormat类，然后按下“CTRL+T”可查看FileInputFormat类的层级结构，如图3.4：

图3.4 FileInputFormat类的层级结构

TextInputFormat

TextInputFormat是默认的FileIrputFormat实现类。按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量（相对于文档开始位置的偏移量，包括换行符和回车符），LongWritable类型。值是这行的内容，不包括任何行终止符（换行符和回车符〉，Text类型。
文本示例如下：

Rich learning form
Intelligent learning engine
Learning more convenient
From the real demand for more close to the enterprise

每条记录表示为以下键/值对：

(0,Rich learning form)
(19,Intelligent learning engine)
(47,Learning more convenient)
(72,From the real demand for more close to the enterprise)

KeyValueFormat实现类

每一行均为一条记录，被分隔符分割为key , value。可以通过在驱动类中设置conf.set(KeyValueLineRecordReaderKEY_VALUE_SEFERATOR,”\t”);来设定分隔符。默认分隔符是tab (\t)。
以下是一个示例，输入是一个包含4条记录的分片。其中——>表标一个(水平方向的)制表符。

linel——>Rich learning form
linez——>Intelligent learning engine
line3——>Learning more convenient
line4——>From the real demand for more close to the enterprise

每条记录表示为以下键/值对

(linel,Rich learning form )
(line2,Intelligent learning enginej)
(line3,Learning more convenient)
(line4,From the real demand for more close to the enterprise)

Tip：此时的键是每行排在分隔符（制表符）之前的Text序列。

NLineInputFormat

如果使用NlineInputFormat，代表每个map进程处理的InputSplit不再按Block块去划分，而是按NineInptFormat指定的行数N味划分。即输入文件的总行数N=切片数，如果不整除，切片数=商+1。
以下是一个示例，仍然以上面的4行输入为例：

Rich learning form
Intelligent learning engine
Learning more convenient
From the real demand for more close to the enterprise

例如，如果N是2，则每个输入分片包含2行，开启两个MapTask。

(0,Rich learning form)
(19,Intelligent learning engine)

(47,Learning more convenient)
(72,From the real demand for more close to the enterprise)

Tip：这里的键和值与TextInputFormat生成的一样。

3.1.7 KeyValueTextInputFormat使用案例

需求：统计输入文件每一行的第一个单词相同的行数。

（1）输入数据

banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang

（2）期望结果数据

banzhang	2
xihuan	2

案例分析

图3.5 KeyValueTextInputFormat使用案例分析

编写代码

（1）编写Mapper类

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class KVTextMapper extends Mapper<Text, Text, Text, LongWritable>{
	
	// 1 封装对象
	LongWritable v = new LongWritable(1);
	
	@Override
	protected void map(Text key, Text value, Context context) throws IOException, InterruptedException {
		// 输入数据格式：bangzhang ni hao
		
		// 2 写出
		context.write(key, v);
		
	}
}

（2）编写Reducer类

import java.io.IOException;


import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class KVTextReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
	
	LongWritable v = new LongWritable();
	
	@Override
	protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
		// 输入数据格式：<bangzhang, 1>
		
		// 1 求和统计
		long sum = 0L;
		for(LongWritable value:values) {
			// get()方法获取LongWritable类型的值
			sum += value.get();
		}
		
		v.set(sum);
		
		// 2 输出
		context.write(key, v);
	}
}

（3）编写Driver类

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
// 以下jar包务必保证正确，采用mapreduce下的jar包，mapred下的jar包已经过时
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.KeyValueLineRecordReader;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class KVTextDriver {
	public static void main(String args[]) throws IOException, ClassNotFoundException, InterruptedException {
		
		// 本地模式下设置输入输出路径
		args = new String[] {"d:/input/inputKVText","d:/outputKVText"};
		
		Configuration conf = new Configuration();
		
		// 设置切割符号为空格
		conf.set(KeyValueLineRecordReader.KEY_VALUE_SEPERATOR, " ");
		
		// 1  获取job对象
		Job job = Job.getInstance(conf);
		
		// 2 设置jar包位置
		job.setJarByClass(KVTextDriver.class);
		
		// 3 关联Mapper类和Reducer类
		job.setMapperClass(KVTextMapper.class);
		job.setReducerClass(KVTextReducer.class);
		
		// 4 设置Map阶段输出数据的key-value类型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(LongWritable.class);
		
		// 5 设置最终输出数据的key-value类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(LongWritable.class);
		
		// 6 设置输入输出数据路径
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		
		// 设置输入格式
		job.setInputFormatClass(KeyValueTextInputFormat.class);
		
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		// 7 提交
		boolean result = job.waitForCompletion(true);
		
		System.exit(result?0:1);
	}
}

3.1.8 NLineInputFormat使用案例

需求：对每个单词进行个数统计，要求根据每个输入文件的行数来规定输出多少个切片。此案例要求每三行放入一个切片中。

（1）输入数据

banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang banzhang ni hao
xihuan hadoop banzhang

（2）期望输出数据

控制台显示：Number of splits:4
文件输出：
banzhang	12
hadoop	6
hao	6
ni	6
xihuan	6

需求分析

图3.6 NLineInputFormat案例分析

3 代码实现

（1）编写Mapper类

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class NLineTextMapper extends Mapper<LongWritable, Text, Text, LongWritable>{
	
	// 定义输出键值对
	Text k = new Text();
	LongWritable v = new LongWritable(1);
	
	@Override
	protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
		
		// 输入数据格式 Rich learning form
		
		// 1 获取一行
		String line = value.toString();
		
		// 2 按照空格切分
		String[] splits = line.split(" ");
		
		// 3 循环写出
		for(int i=0;i<splits.length;i++) {
			k.set(splits[i]);
			
			context.write(k, v);
		}
		
	}
}

（2）编写Reducer类

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;


// Reduce
public class NLineTextReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
	
	LongWritable v = new LongWritable();
	
	@Override
	protected void reduce(Text key,Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
		
		// 输入数据格式：<Rich,1> <learning,1>
		
		// 1 汇总求和
		long sum = 0L;
		for(LongWritable value:values) {
			sum+=value.get();
		}
		
		v.set(sum);
		
		// 2 输出
		context.write(key, v);
	}
}

（3）编写Driver类

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.NLineInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class NLineTextDriver {
	public static void main(String args[]) throws IOException, ClassNotFoundException, InterruptedException {
		
		args=new String[] {"d:/input/inputNLineText","d:/outputNLineText"};
		
		Configuration conf = new Configuration();
		
		// 1 获取job对象
		Job job = Job.getInstance(conf);
		
		// 2 设置jar包位置
		job.setJarByClass(NLineTextDriver.class);
		
		// 3 关联Mapper和Reducer类
		job.setMapperClass(NLineTextMapper.class);
		job.setReducerClass(NLineTextReducer.class);
		
		// 4 设置Mpper阶段的输出key-value数据格式
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(LongWritable.class);
		
		// 5 设置最终输出key-value数据格式
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(LongWritable.class);
		
		// 6 设置输入输出路径，注意修改输入格式
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		
		// 设置输入格式
		job.setInputFormatClass(NLineInputFormat.class);
		
		// 设置每个切片划分三行记录
		NLineInputFormat.setNumLinesPerSplit(job, 3);
		
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		// 7 提交
		boolean result = job.waitForCompletion(true);
		
		System.exit(result?0:1);
	}
}

（4）测试

输入数据如下

banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang banzhang ni hao
xihuan hadoop banzhang

控制台运行结果如下

图3.7 NLineInputFormat使用案例运行截图

输出结果如下：

banzhang	12
hadoop	6
hao	6
ni	6
xihuan	6

3.1.9 自定义InputFormat

在企业开发中，Hadoop框架自带的InputF ormmat类型不能满足所有应用场，需要自定义InputFormat来解决实际问题。
自定义InputFormat步骡如下:
（1）自定义一个类继承FileInputFormat。
（2）改写RecordReader，实现一次读取一个完整文件封装为KV。
（3）在输出时使用SequenceFileOutPutFormat输出合并文件。

3.1.10 自定义InputFormat案例实操

无论HDFS还是MapReduce，在处理小文件时效率都非常低，但又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。可以自定义InputFormat实现小文件的合并。

需求

将多个小文件合并成一个SequenceFile文件（SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式），SequenceFile里面存储着多个文件，存储的形式为文件路径+名称为key，文件内容为value。

（1）输入数据

三个小文件：one.txt，two.txt，three.txt

（2）期望输出文件格式，SequenceFile文件

part-0000

内容如下

SEQorg.apache.hadoop.io.Text"org.apache.hadoop.io.BytesWritable      ?奀Wu授X@鼧?   W   "!file:/e:/inputinputformat/one.txt   1yongpeng weidong weinan
sanfeng luozong xiaoming   Y   $#file:/e:/inputinputformat/three.txt   1shuaige changmo zhenqiang 
dongli lingu xuanxuan   €   "!file:/e:/inputinputformat/two.txt   Zlonglong fanfan
mazong kailun yuhang yixin
longlong fanfan
mazong kailun yuhang yixin

需求分析

图3.8 自定义InputFormat案例分析

程序实现

（1）自定义InputFormat

import java.io.IOException;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

public class WholeFileInputFormat extends FileInputFormat<Text, BytesWritable>{
	
	// 一定不能漏
	@Override
	protected boolean isSplitable(JobContext context, Path filename) {
		return false;
	}
	
	@Override
	public RecordReader<Text, BytesWritable> createRecordReader(InputSplit split, TaskAttemptContext context)
			throws IOException, InterruptedException {
		WholeRecordReader recordReader = new WholeRecordReader();
		recordReader.initialize(split, context);
		return recordReader;
	}
	
}

（2）自定义RecordReader类

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

public class WholeRecordReader extends RecordReader<Text, BytesWritable>{

	FileSplit split;
	Configuration configuration;
	Text k =new Text();
	BytesWritable v = new BytesWritable();
	boolean isProgress=true;  // 依据map源码设置
	
	@Override
	public void initialize(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {
		// 初始化
		this.split=(FileSplit)split;
		
		// 通过上下文获取配置信息
		configuration = context.getConfiguration();
	}

	@Override
	public boolean nextKeyValue() throws IOException, InterruptedException {
		// 核心业务逻辑处理
		
		if(isProgress) {
			byte[] buf = new byte[(int)split.getLength()];
			
			// 1  获取fs对象
			Path path = split.getPath();
			FileSystem fs = path.getFileSystem(configuration);
			
			// 2  获取输入流
			FSDataInputStream fis = fs.open(path);
			
			// 3 拷贝
			IOUtils.readFully(fis, buf , 0, buf.length);
			
			// 4 封装v
			v.set(buf, 0, buf.length);
			
			// 5 封装k
			k.set(path.toString());
			
			// 6 关闭资源
			IOUtils.closeStream(fis);
			
			isProgress=false;
			
			return true;
		}
		
		return false;
	}

	@Override
	public Text getCurrentKey() throws IOException, InterruptedException {
		
		return k;
	}

	@Override
	public BytesWritable getCurrentValue() throws IOException, InterruptedException {
		
		return v;
	}

	@Override
	public float getProgress() throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		return 0;
	}

	@Override
	public void close() throws IOException {
		// TODO Auto-generated method stub
		
	}
	
}

Tip：依据Mapper类的run函数源码，需要设置标志位来保证nextKeyValue只执行一次，即保证一个文件只读取一次。run函数源码如下：

public void run(Context context) throws IOException, InterruptedException {
  setup(context);
  try {
    while (context.nextKeyValue()) {
      map(context.getCurrentKey(), context.getCurrentValue(), context);
    }
  } finally {
    cleanup(context);
  }
}

（3）编写Mapper类

import java.io.IOException;

import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class InputFormatMapper extends Mapper<Text, BytesWritable, Text, BytesWritable>{
	@Override
	protected void map(Text key,BytesWritable value, Context context) throws IOException, InterruptedException {
		
		// 直接写出
		context.write(key, value);
	}
}

（4）编写Reducer类

import java.io.IOException;

import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class InputFormatReducer extends Reducer<Text, BytesWritable, Text, BytesWritable>{
	@Override
	protected void reduce(Text key,Iterable<BytesWritable> values, Context context) throws IOException, InterruptedException {
		
		// 循环写出
        // 因为Driver类中设置的输出类是SequenceFileOutputFormat类，所以Reducer输出只需要按文件名-文件内容的键值对形式输出即可
		for(BytesWritable value:values) {
			context.write(key, value);
		}
	}
}

（5）编写Driver类

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

public class InputFormatDriver {
	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		
	       // 输入输出路径需要根据自己电脑上实际的输入输出路径设置
			args = new String[] { "d:/input/inputInputFormat", "d:/outputInputFormat" };

	       // 1 获取job对象
			Configuration conf = new Configuration();
			Job job = Job.getInstance(conf);

	       // 2 设置jar包存储位置、关联自定义的mapper和reducer
			job.setJarByClass(InputFormatDriver.class);
			job.setMapperClass(InputFormatMapper.class);
			job.setReducerClass(InputFormatReducer.class);

	       // 7 设置输入的inputFormat，设置为自定义的InputFormat类
			job.setInputFormatClass(WholeFileInputFormat.class);

	       // 8 设置输出的outputFormat，设置为SequenceFileOutputFormat类
			job.setOutputFormatClass(SequenceFileOutputFormat.class);
	       
		   	// 3 设置map输出端的kv类型
			job.setMapOutputKeyClass(Text.class);
			job.setMapOutputValueClass(BytesWritable.class);
			
	       // 4 设置最终输出端的kv类型
			job.setOutputKeyClass(Text.class);
			job.setOutputValueClass(BytesWritable.class);

	       // 5 设置输入输出路径
			FileInputFormat.setInputPaths(job, new Path(args[0]));
			FileOutputFormat.setOutputPath(job, new Path(args[1]));

	       // 6 提交job
			boolean result = job.waitForCompletion(true);
			System.exit(result ? 0 : 1);
		}
}

3.2 MapReduce工作流程

3.2.1 MapReduce工作流程示意图

图3.9 MapReduce工作流程（一）

图3.10 MapReduce工作流程（二）

3.2.2 MapReduce工作流程详解

上面的流程是整个MapReduce最全工作流程，但是Shuffle过程只是从第7步开始到第16步结束，具体Shuffle过程详解，如下：

MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中；
从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件；
多个溢出文件会被合并成大的溢出文件；
在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序；
ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据；
ReduceTask会取到同一个分区的来自不同MapTask的结果文件，ReduceTask会将这些文件再进行合并（归并排序）；
合并成大文件后，Shuffle的过程也就结束了，后面进入ReduceTask的逻辑运算过程（从文件中取出一个一个的键值对Group，调用用户自定义的reduce()方法）

3.2.3 注意点

Shuffle中的缓冲区大小会影响到MapReduce程序的执行效率，原则上说，缓冲区越大，磁盘IO的次数越少，执行速度就越快。
缓冲区的大小可以通过参数调整，参数：io.sort.mb默认100M。

3.2.4 源码解析工作流程

// 按照层级结构依次调用的主要函数如下
context.write(k, NullWritable.get());
	output.write(key, value);
		collector.collect(key, value,partitioner.getPartition(key, value, partitions));
			HashPartitioner();
	collect()
		close()
			collect.flush()
				sortAndSpill()
					sort()   QuickSort
				mergeParts();
			collector.close();

3.3 Shuffle机制

3.3.1 Shuffle机制

Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。如图3.11所示：

图3.11 Shuffle机制

3.3.2 Partition分区

分区概念：将统计结果输出到不同文件中（分区）。
默认Partition分区

public class HashPartitioner<K,V>extends Partitioner<K,V>{
    public int getPartition(R key, v value, int numReduceTasks) {
        return (key.hashCode () & Integer.MAX_VALUE) % numReduceTasks;
        // key.hashCode () & Integer.MAX_VALUE是为了控制hashCode在int类型的取值范围内
    }
}

默认分区是根据key日的hashCode对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区。

自定义Partition步骤

（1）自定义类继承Partitioner，重写getPartition()方法

// kv类型为map阶段输出数据的kv类型
public class CustonPartitioner cxtends Partitioner<Text,Flowbean>{
	@override
	public int getPartition(Text key，FlowBean value, int numPartitions) {
        // 控制分区代码逻辑
        ······
		return partition; // 分区索引从0开始计算
    }
}

（2）在Job驱动中，设置自定义Partitioner

job.setPartitionerClass(CustomPartitioner.class);

（3）自定义Patition后，要根据自定义Partitiorer的逻辑设置相应数量的ReduceTask

job.setNumReduceTasks(5);

分区总结

（1）如果ReduceTask的数量 > getPatitian的结果数，则会多产生几个空的输出文件part-r-000xx；

（2）如果1<ReduceTask的数量<getPartition的结果数，则有一部分分区数据无处安放，会报错Exception；

（3）如果ReduceTask的数量=1，则不管MapTask端输出多少个分区文件，最终结果都交给一个ReduceTask，最终也就具会产生一个结果文件part-r-00000；

（4）分区号必须从零开始，逐一累加。

案例分析

例如：假设自定义分区数为5，则
（1）job.setNumReduceTasks(1)，会正常运行，只不过会产生一个输出文件；

（2）job.setNumReduceTasks2)，会报错；

（3）job.setNumReduceTasks(6)；大于5，程序会正常运行，会产生空文件。

3.3.3 Partition分区案例

需求：将统计结果按照手机归属地不同省份输出到不同文件中（分区）。

（1）输入数据：phone_data.txt

（2）期望输出数据：手机号136、137、138、139开头都分别放到一个独立的4个文件中，其他开头的放到一个文件中。

需求分析

（1）增加一个ProvicePartitioner进行自定义分区

136	分区0
137	分区1
138	分区2
139	分区3
其他	分区4

（2）Driver驱动类修改

// 指定自定义数据分区
job.setPartitionerClass(ProvincePartitioner.class);
		
// 指定ReduceTask个数
job.setNumReduceTasks(5);

代码实现

（1）增加一个分区类ProvicePartitioner

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class ProvincePartitioner extends Partitioner<Text, FlowBean>{
	@Override
	public int getPartition(Text key,FlowBean value,int numPartition) {
		
		// 1 获取电话号码的前三位
		String preNum=key.toString().substring(0,3);
		
		int partition=4;
		
		// 2 判断是哪个省
		if("136".equals(preNum)) {
			partition=0;
		}else if("137".equals(preNum)) {
			partition=1;
		}else if("138".equals(preNum)) {
			partition=2;
		}else if("139".equals(preNum)){
			partition=3;
		}
		
		return partition;
	}
}

（2）在驱动类中添加以下内容

// 设置partition类
job.setPartitionerClass(ProvincePartitioner.class);
		
// 设置ReduceTask个数
job.setNumReduceTasks(5);

3.3.4 WritableComparable排序

排序概述

（1）排序是MapReduce框架中最重要的操作之一。

（2）MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。

（3）默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。

（4）对于MapTask，它会将处理的结果暂时放到环形缓冲区中，当环形缓冲区使用率达到一定阈值后，再对缓冲区中的数据进行一次快速排序，并将这些有序数据溢写到磁盘上，而当数据处理完毕后，它会对磁盘上所有文件进行归并排序。
（5）对于ReduceTask，它从每个MapTask上远程拷贝相应的数据文件，如果文件大小超过一定阈值，则溢写磁盘上，否则存储在内存中。如果内存中文件大小或者数目超过一定阈值，则进行一次合并后将数据溢写到磁盘上；如果磁盘上文件数目达到一定阈值，则进行一次归并排序以生成一个更大文件（意味着如果文件不够多此部分可能没有）。当所有数据拷贝完毕后，ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序。

排序的分类

（1）部分排序
MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部有序。
（2）全排序
最终输出结果只有一个文件，且文件内部有序。实现方式是只设置一个ReduceTask。但该方法在处理大型文件时效率极低，因为一台机器处理所有文件，完全丧失了MapReduwe所提供的并行构。
（3）辅助排序（GroupingCormparator分组）
在Reduce端对key进行分组。应用于：在接收的key为bean对象时，想让一个或几个字段相同（全部字段比较不相同）的key进入到同一个reduce方法时，可以采用分组非序。
（4）二次排序
在自定义排序过程中，如果compareTo中的判断条件为两个即为二次排序。

自定义排序WritableComparable

（1）bean对象做为key传输，需要实现WritableComparable接口重写compareTo方法，以实现排序。

（2）重写compareTo方法示例如下：

@Override
public int compareTo(FlowBean o) {

	int result;
		
	// 按照总流量大小，倒序排列
	if (sumFlow > bean.getSumFlow()) {
		result = -1;
	}else if (sumFlow < bean.getSumFlow()) {
		result = 1;
	}else {
		result = 0;
	}

	return result;
}

3.3.5 WritableComparable排序案例实操（全排序）

需求：根据电话流量数据再次对总流量进行排序。

（1）输入数据：phone_data

（2）期望输出数据

13509468723	7335	110349	117684
13736230513	2481	24681	27162
13956435636	132		1512	1644
13846544121	264		0		264
······

需求分析

（1）FlowBean实现WritableComparable接口重新compareTo方法

@Override
public int compareTo(FlowBean bean) {
		
	int result;
		
	// 核心比较条件判断
	// 按照总流量大小，倒序排列
	if (sumFlow > bean.getSumFlow()) {
		result = -1;
	}else if (sumFlow < bean.getSumFlow()) {
		result = 1;
	}else {
		result = 0;
	}

	return result;
}

（2）Mapper类

context.write(bean,phoneNum)

（3）Reudcer类

// 循环输出，避免总流量相同情况
for(Text text:values){
    context.write(text,key)
}

代码实现

（1）FlowBean增加比较方法（重写之前的类，实现WritableComparable接口）

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

public class FlowBean implements WritableComparable<FlowBean>{
	
	private long upFlow;
	private long downFlow;
	private long sumFlow;
	
	// 反序列化时，需要反射调用空参构造函数
	public FlowBean() {
		super();
	}
	
	
	public FlowBean(long upFlow, long downFlow) {
		super();
		this.upFlow = upFlow;
		this.downFlow = downFlow;
		this.sumFlow=upFlow+downFlow;
	}
	
	public void set(long upFlow,long downFlow) {
		this.upFlow=upFlow;
		this.downFlow=downFlow;
		this.sumFlow=upFlow+downFlow;
	}

	public long getUpFlow() {
		return upFlow;
	}

	public void setUpFlow(long upFlow) {
		this.upFlow = upFlow;
	}

	public long getDownFlow() {
		return downFlow;
	}

	public void setDownFlow(long downFlow) {
		this.downFlow = downFlow;
	}

	public long getSumFlow() {
		return sumFlow;
	}

	public void setSumFlow(long sumFlow) {
		this.sumFlow = sumFlow;
	}
	
	/**
	 * TASK 序列化方法
	 */
	@Override
	public void write(DataOutput out) throws IOException {
		out.writeLong(upFlow);
		out.writeLong(downFlow);
		out.writeLong(sumFlow);
	}

	/**
	 * TASK 反序列化方法
	 */
	@Override
	public void readFields(DataInput in) throws IOException {
		upFlow=in.readLong();
		downFlow=in.readLong();
		sumFlow=in.readLong();
	}
	
	@Override
	public String toString() {
		return upFlow+"\t"+downFlow+"\t"+sumFlow;
	}

	@Override
	public int compareTo(FlowBean bean) {
		
		int result;
		
		// 核心比较条件判断
		// 按照总流量大小，倒序排列
		if (sumFlow > bean.getSumFlow()) {
			result = -1;
		}else if (sumFlow < bean.getSumFlow()) {
			result = 1;
		}else {
			result = 0;
		}

		return result;
	}
	
}

（2）编写Mapper类（重写之前的类，修改输出数据key和value的数据类型）

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class FlowCountSortMapper extends Mapper<LongWritable, Text, FlowBean, Text>{
	FlowBean bean = new FlowBean();
	Text v = new Text();

	@Override
	protected void map(LongWritable key, Text value, Context context)	throws IOException, InterruptedException {

		// 1 获取一行
		String line = value.toString();
		
		// 2 截取
		String[] fields = line.split("\t");
		
		// 3 封装对象
		// 取出手机号码
		String phoneNum = fields[1];
		
		// 取出上行流量和下行流量
		long upFlow = Long.parseLong(fields[fields.length-3]);
		long downFlow = Long.parseLong(fields[fields.length-2]);
		
		// 不能仅仅设置sumFlow，因为bean对象在序列化时，变量必须有值
		bean.set(upFlow, downFlow); 
		v.set(phoneNum);
		
		// 4 输出，注意此时key-value的数据类型，总流量为key，电话号码为value
		context.write(bean, v);
	}
}

（3）编写Reducer类

import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class FlowCountSortReducer extends Reducer<FlowBean, Text, Text, FlowBean>{
	
	@Override
	protected void reduce(FlowBean key, Iterable<Text> values, Context context)	throws IOException, InterruptedException {
		
		// 循环输出，避免总流量相同情况（总流量相同时，values的值有多个）
		for (Text text : values) {
			
			// 注意此时输出key-value的数据类型，与map阶段的数据类型相反
			context.write(text, key);
		}
	}
}

（4）编写Driver类

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FlowCountSortDriver {
	public static void main(String[] args) throws ClassNotFoundException, IOException, InterruptedException {

		// 输入输出路径需要根据自己电脑上实际的输入输出路径设置
		args = new String[]{"d:/input/inputFlow","d:/outputFlowCountSort"};

		// 1 获取配置信息，或者job对象实例
		Configuration configuration = new Configuration();
		Job job = Job.getInstance(configuration);

		// 2 指定本程序的jar包所在的本地路径
		job.setJarByClass(FlowCountSortDriver.class);

		// 3 指定本业务job要使用的mapper/Reducer业务类
		job.setMapperClass(FlowCountSortMapper.class);
		job.setReducerClass(FlowCountSortReducer.class);

		// 4 指定mapper输出数据的kv类型
		job.setMapOutputKeyClass(FlowBean.class);
		job.setMapOutputValueClass(Text.class);

		// 5 指定最终输出的数据的kv类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(FlowBean.class);

		// 6 指定job的输入原始文件所在目录
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		// 7 将job中配置的相关参数，以及job所用的java类所在的jar包， 提交给yarn去运行
		boolean result = job.waitForCompletion(true);
		System.exit(result ? 0 : 1);
	}
}

总结

要实现依据总流量排序，在Map阶段的排序即可完成；
Reduce阶段的排序保证按规定顺序输出。

3.3.6 WritableComparable排序案例实操（区内排序）

需求：要求每个省份手机号输出的文件中按照总流量内部排序。。
需求分析

基于上一个需求（全排序），增加自定义分区类，分区按照省份手机号设置。
输入输出示例如图3.12：

图3.12 WritableComparable排序案例（区内排序）输入输出示例

代码实现

（1）添加自定义分区类

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

// 注意key-value类型
public class ProvincePartitioner extends Partitioner<FlowBean, Text>{
	@Override
	public int getPartition(FlowBean key, Text value, int numPartition) {
		
		// 1 获取电话号码的前三位
		String preNum=value.toString().substring(0,3);
		
		int partition=4;
		
		// 2 判断是哪个省
		if("136".equals(preNum)) {
			partition=0;
		}else if("137".equals(preNum)) {
			partition=1;
		}else if("138".equals(preNum)) {
			partition=2;
		}else if("139".equals(preNum)){
			partition=3;
		}
		
		return partition;
	}
}

（2）在Driver类中添加如下代码：

// 设置自定义分区类
job.setPartitionerClass(ProvincePartitioner.class);
		
// 设置ReduceTask个数
job.setNumReduceTasks(5);

3.3.7 Combiner合并

Combiner是MR程序中Mapper和Reducer之外的一种组件。
Combiner组件的父类就是Reducer。
Combiner和Reducer的区别在于运行的位置：

Combiner是在每一个MapTask所在的节点运行；
Reducer是接收全局所有Mapper的输出结果。

Combiner的意义就是对每一个MapTask的输出进行局部汇总，以减小网络传输量。
Combiner能够应用的前提是不能影响最终的业务逻辑，而且，Combiner的输出kv应该跟Reccer的输入kv类型要对应起来。

例如，Combiner适用于求和、汇总等场景，Combiner不适用求平均值场景，原因如图3.13：

图3.13 Combiner不适用于MapReduce求平均值场景原因

自定义Combiner实现步骤

（1）自定义一个Combiner继承Reducer，重写Reduce方法

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordCountCombiner extends Reducer<Text, IntWritable, Text, IntWritable>{
	
	IntWritable  v = new IntWritable();
	
	@Override
	protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException{
	
		int sum=0;
		
		// 1 累加求和
		for(IntWritable value:values) {
			sum += value.get();
		}
		
		v.set(sum);
		
		// 2 写出atguigu 2
		context.write(key, v);
	}
}

（2）在Driver类中设置：

// 设置Combiner类
job.setCombinerClass(WordCountCombiner.class);

3.3.8 Combiner合并案例实操

需求：统计过程中对每一个MapTask的输出进行局部汇总，以减小网络传输量，即采用Combiner功能。

（1）输入数据：hello.txt

（2）期望输出：

Map阶段输出到Reduce阶段时经过合并，输出数据降低。

期望控制台显示如图3.13所示：

图3.13 Combiner成功示例

需求分析

（1）方案一

增加一个WordCombiner类继承Reducer类；
在WordCountCombiner中实现：统计单词汇总和统计结果输出。

（2）方案二

将WordCountReducer作为Combiner在WordCountDriver驱动类中指定

job.setCombinerClass(WordCountReducer.class);

代码实现（方案一）

（1）增加一个WordcountCombiner类继承Reducer

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordCountCombiner extends Reducer<Text, IntWritable, Text, IntWritable>{
	
	IntWritable  v = new IntWritable();
	
	@Override
	protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException{
	
		int sum=0;
		
		// 1 累加求和
		for(IntWritable value:values) {
			sum += value.get();
		}
		
		v.set(sum);
	
		context.write(key, v);
	}
}

（2）在WordcountDriver驱动类中指定Combiner

// 指定需要使用combiner，以及用哪个类作为combiner的逻辑
job.setCombinerClass(WordcountCombiner.class);

3.3.9 GroupingComparator分组（辅助排序）

在Reduce阶段前，根据某一个或几个字段对Map阶段输出的有序键值对进行分组。
自定义分组排序步骤

自定义类继承WritableComparator
重写compare()方法

@Override 
public int compare(WritableComparable a, WritableComparable b) {
 
		// 比较的业务逻辑
		return result;
}

创建一个构造方法，将比较对象的类传给父类

protected OrderGroupingComparator() {
    
   		super(OrderBean.class, true);
}

3.3.10 GroupingComparator分组案例实操

需求

（1）输入数据如下，要求输出每个订单中最贵的商品。

GroupingComparator

（2）期望输出数据

1	222.8
2	722.4
3	232.8

需求分析

（1）利用“订单id和成交金额”作为key，可以将Map阶段读取到的所有订单数据按照id升序排序，如果id相同再按照金额降序排序，发送到Reduce。

（2）在Reduce端利用groupingComparator将订单id相同的kv聚合成组，然后取第一个即是该订单中最贵商品，如图3.14所示。

图3.14 GroupingComparator分组案例需求分析

代码实现

（1）定义订单信息OrderBean类

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

public class OrderBean implements WritableComparable<OrderBean>{

	private int order_id;
	private double price;
	
	
	// 空参构造
	public OrderBean() {
		super();
	}
	
	// 有参构造
	public OrderBean(int order_id, double price) {
		super();
		this.order_id = order_id;
		this.price = price;
	}

	public int getOrder_id() {
		return order_id;
	}

	public void setOrder_id(int order_id) {
		this.order_id = order_id;
	}

	public double getPrice() {
		return price;
	}

	public void setPrice(double price) {
		this.price = price;
	}

	@Override
	public String toString() {
		return order_id + "\t" + price;
	}

	@Override
	public void write(DataOutput out) throws IOException {
		out.writeInt(order_id);
		out.writeDouble(price);
	}

	@Override
	public void readFields(DataInput in) throws IOException {
		order_id = in.readInt();
		price=in.readDouble();
	}

	// 二次排序：在自定义排序过程中，如果compareTo中的判断条件为两个即为二次排序
	@Override
	public int compareTo(OrderBean o) {

		int result;

		// 比较结果中，-1代表排在前面，1代表排在后面
		// order_id正序排列
		if (order_id > o.getOrder_id()) {
			result = 1;
		} else if (order_id < o.getOrder_id()) {
			result = -1;
		} else {

			// 价格倒序排列
			if (price > o.getPrice()) {
				result = -1;
			} else if (price < o.getPrice()) {
				result = 1;
			} else {
				result = 0;
			}
			
//			result = price >o.getPrice()?-1:1;
		}

		return result;
	}
}

（2）编写OrderMapper类

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class OrderMapper extends Mapper<LongWritable, Text, OrderBean, NullWritable> {
	
	OrderBean k = new OrderBean();

	@Override
	protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

		// 1 获取一行
		String line = value.toString();

		// 2 截取
		String[] fields = line.split("\t");

		// 3 封装对象
		k.setOrder_id(Integer.parseInt(fields[0]));
		k.setPrice(Double.parseDouble(fields[2]));

		// 4 写出，注意NullWritable加上了get()方法
		context.write(k, NullWritable.get());
	}
}

（3）编写OrderSortGroupingComparator类

import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

public class OrderSortGroupingComparator extends WritableComparator{
	protected OrderSortGroupingComparator() {
		// 第二个参数true一定不能省，否则会报错
		super(OrderBean.class,true);
	}
	
	@Override
	public int compare(WritableComparable a, WritableComparable b) {

		// 只要order_id相同就认为是相同的key

		OrderBean aBean = (OrderBean) a;
		OrderBean bBean = (OrderBean) b;

		int result;

		if (aBean.getOrder_id() > bBean.getOrder_id()) {
			result = 1;
		} else if (aBean.getOrder_id() < bBean.getOrder_id()) {
			result = -1;
		} else {
			result = 0;
		}

		return result;
	}
}

（4）编写OrderReducer类

import java.io.IOException;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Reducer;

public class OrderReducer extends Reducer<OrderBean, NullWritable, OrderBean, NullWritable>{
	@Override
	protected void reduce(OrderBean key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
		context.write(key, NullWritable.get());
	}
}

（5）编写OrderDriver类

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class OrderDriver {
	public static void main(String[] args) throws Exception, IOException {

		// 输入输出路径需要根据自己电脑上实际的输入输出路径设置
		args = new String[] { "d:/input/inputOrder", "d:/outputOrder" };

		// 1 获取配置信息
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);

		// 2 设置jar包加载路径
		job.setJarByClass(OrderDriver.class);

		// 3 加载map/reduce类
		job.setMapperClass(OrderMapper.class);
		job.setReducerClass(OrderReducer.class);
		
		// 8 设置reduce端的分组，负责比较相同key值，然后对进入ReduceTask的键值对进行分组，否则OrderSortGroupingComparator类无法发挥作用，直接把每个键值对单独分为一组
		job.setGroupingComparatorClass(OrderSortGroupingComparator.class);

		// 4 设置map输出数据key和value类型
		job.setMapOutputKeyClass(OrderBean.class);
		job.setMapOutputValueClass(NullWritable.class);

		// 5 设置最终输出数据的key和value类型
		job.setOutputKeyClass(OrderBean.class);
		job.setOutputValueClass(NullWritable.class);

		// 6 设置输入数据和输出数据路径
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		// 7 提交
		boolean result = job.waitForCompletion(true);
		System.exit(result ? 0 : 1);
	}
}

Tip：

如果要求获取每个订单号价格前N位的商品，在Reduce方法中，设置同一组内循环输出N次value值即可。
Reduce阶段对Map阶段输出的键值对进行分组时，默认Map阶段已经排序，仅通过GroupingComparator类从上往下寻找不同组的键值对，然后把不同组键值对以上的部分自动分为一组。

——————未完待续，以下内容后续补充——————

3.4 MapTask工作机制

3.5 ReduceTak工作机制

3.6 OutputFormat数据输出

3.6.1 OutputFormat接口实现类

3.6.2 自定义OutputFormat

3.6.3 自定义OutputFormat案例实操

3.7 Join多种应用

3.7.1 Reduce Join

3.7.2 Reduce Join案例实操

3.7.3 Map Join

3.7.4 Map Join案例实操

······

PS：视频教程查看尚硅谷-Hadoop视频教程。

fdChen

https://blog.fdchen.host/2020/shu-ju-fen-xi-fen-bu-shi-ji-suan-kuang-jia-mapreduce/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 fdChen !

教程学习笔记 Hadoop MapReduce

Java_基本用法

Java使用之基本用法，包含Java项目的常见用法，也包含一些DeBug的案例

2020-11-07 Java

教程 Debug

分布式文件系统HDFS

尚硅谷的大数据分析课程的“HDFS”学习笔记，包括HDFS的常用命令

2020-10-25 数据分析

教程学习笔记 Hadoop HDFS

分布式计算框架MapReduce

1 MapReduce概述

1.1 MapReduce定义

1.2 MapReduce优缺点

1.2.1 优点

1.2.2 缺点

1.3 MapReduce核心思想

1.4 MapReduce进程

1.5 官方WordCount源码

1.6 常用数据序列化类型

1.7 MapReduce编程规范

1.8 WordCount案例实操

2 Hadoop序列化

2.1 序列化概述

2.1.1 什么是序列化

2.1.2 为什么要序列化

2.1.3 为什么不用Java的序列化

2.1.4 Hadoop排序列化特点

2.2 自定义bean对象实现序列化接口（Writable）

2.3 序列化案例实操

2.3.1 需求

2.3.1 需求分析

2.3.3 编写MapReduce程序

3 MapReduce框架原理

3.1 InputFormat数据输入

3.1.1 切片与MapTask并行度决定机制

3.1.2 Job提交流程源码和切片源码详解

3.1.3 FileInputFormat切片机制

3.1.4 CombineTextInputFormat切片机制

3.1.5 CombineTextInputFormat案例实操

3.1.6 FileInputFormat实现类

3.1.7 KeyValueTextInputFormat使用案例

3.1.8 NLineInputFormat使用案例

3.1.9 自定义InputFormat

3.1.10 自定义InputFormat案例实操

3.2 MapReduce工作流程

3.2.1 MapReduce工作流程示意图

3.2.2 MapReduce工作流程详解

3.2.3 注意点

3.2.4 源码解析工作流程

3.3 Shuffle机制

3.3.1 Shuffle机制

3.3.2 Partition分区

3.3.3 Partition分区案例

3.3.4 WritableComparable排序

3.3.5 WritableComparable排序案例实操（全排序）

3.3.6 WritableComparable排序案例实操（区内排序）

3.3.7 Combiner合并

3.3.8 Combiner合并案例实操

3.3.9 GroupingComparator分组（辅助排序）

3.3.10 GroupingComparator分组案例实操

3.4 MapTask工作机制

3.5 ReduceTak工作机制

3.6 OutputFormat数据输出

3.6.1 OutputFormat接口实现类

3.6.2 自定义OutputFormat

3.6.3 自定义OutputFormat案例实操

3.7 Join多种应用

3.7.1 Reduce Join

3.7.2 Reduce Join案例实操

3.7.3 Map Join

3.7.4 Map Join案例实操

你的赏识是我前进的动力