首页 > 资讯 > 精选 >hadoop中系统执行排序的过程叫什么

730

分享到

hadoop中系统执行排序的过程叫什么

2023-06-14 20:06:26 730人浏览八月长安

摘要

这篇文章给大家分享的是有关hadoop中系统执行排序的过程叫什么的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。mapReduce确保每个reducer的输入都是按键排序的，系统执行排序的过程称为shuffle。s

这篇文章给大家分享的是有关hadoop中系统执行排序的过程叫什么的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

mapReduce确保每个reducer的输入都是按键排序的，系统执行排序的过程称为shuffle。shuffle阶段主要包括map阶段的combine、group、sort、partition以及reducer阶段的合并排序。

本教程操作环境：windows7系统，Dell G3电脑。

MapReduce确保每个reducer的输入都是按键排序的，系统执行排序的过程称为shuffle。我们可以理解为map产生输出到reduce的消化输入的整个工程。

Map端：每个mapperTask有一个环形内存缓冲区，用于存储map任务的输出，一旦达到阈值，一个后台线程把内容写到磁盘的指定目录下的新建的一个溢出写文件，写磁盘前要经过partition、sort、Combiner。等最后记录写完，合并全部溢出写文件为一个分区且排序的文件。

Reduce端：可以分为复制阶段、排序阶段、reduce阶段

复制阶段：map输出文件位于运行map任务的tasktracker的本地磁盘上，reduce通过Http的方式获取输出文件的分区，tasktracker为分区文件运行reduce任务，只要有一个map任务完成，reduce任务就开始复制输出。

排序阶段：更恰当的说法是合并阶段，因为排序是在map端进行的。这个阶段将合并map输出，维持其顺序排序，循环进行。

最后阶段就是reduce阶段，对已排序输出中的每个键调用reduce函数，此阶段的输出直接写到输出文件系统，一般为hdfs。、

Shuffle阶段说明

shuffle阶段主要包括map阶段的combine、group、sort、partition以及reducer阶段的合并排序。Map阶段通过shuffle后会将输出数据按照reduce的分区分文件的保存，文件内容是按照定义的sort进行排序好的。Map阶段完成后会通知ApplicationMaster，然后AM会通知Reduce进行数据的拉取，在拉取过程中进行reduce端的shuffle过程。

注意:Map阶段的输出数据是存在运行Map节点的磁盘上，是个临时文件，不是存在HDFS上，在Reduce拉取数据后，那个临时文件会删除，若是存在hdfs上，会造成存储空间的浪费（会产生三个副本）。

用户自定义Combiner
Combiner可以减少Map阶段的中间输出结果数，降低网络开销。默认情况下是没有Combiner的。用户自定义的Combiner要求是Reducer的子类，以Map的输出<key,value>作为Combiner的输入<key,value>和输出<key,value>，也就是说Combiner的输入和输出必须是一样的。
可以通过job.setCombinerClass设置combiner的处理类，MapReduce框架不保证一定会调用该类的方法。
注意：如果reduce的输入和输出一样，则可以直接用reduce类作为combiner
用户自定义Partitioner
Partitioner是用于确定map输出的<key,value>对应的处理reducer是那个节点。默认MapReduce任务reduce个数为1个，此时Partitioner其实没有什么效果，但是当我们将reduce个数修改为多个的时候，partitioner就会决定key所对应reduce的节点序号(从0开始)。
可以通过job.setPartitionerClass方法指定Partitioner类，默认情况下使用HashPartitioner（默认调用key的hashCode方法）。
用户自定义Group
GroupinGComparator是用于将Map输出的<key,value>进行分组组合成<key,List<value>>的关键类，直白来讲就是用于确定key1和key2是否属于同一组，如果是同一组，就将map的输出value进行组合。
要求我们自定义的类实现自接口RawComparator，可以通过job.setGroupingComparatorClass方法指定比较类。默认情况下使用WritableComparator，但是最终调用key的compareTo方法进行比较。
用户自定义Sort
SortComparator是用于将Map输出的<key,value>进行key排序的关键类，直白来讲就是用于确定key1所属组和key2所属组那个在前，那个在后。
要求我们自定义的类实现自接口RawComparator，可以通过job.setSortComparatorClass方法指定比较类。默认情况下使用WritableComparator，但是最终调用key的compareTo方法进行比较。
用户自定义Reducer的Shuffle
在reduce端拉取map的输出数据的时候，会进行shuffle(合并排序)，MapReduce框架以插件模式提供了一个自定义的方式，我们可以通过实现接口ShuffleConsumerPlugin，并指定参数mapreduce.job.reduce.shuffle.consumer.plugin.class来指定自定义的shuffle规则，但是一般情况下，直接采用默认的类org.apache.hadoop.mapreduce.task.reduce.Shuffle。

感谢各位的阅读！关于“hadoop中系统执行排序的过程叫什么”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

--结束END--

本文标题: hadoop中系统执行排序的过程叫什么

本文链接: https://lsjlt.com/news/274728.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

hadoop中系统执行排序的过程叫什么

hadoop中系统执行排序的过程叫什么

Java中jvm的执行过程是什么

struts2的执行过程是什么

Python字节码与程序执行过程是什么

React中的render什么时候执行过程

mysql中查询的执行过程是什么

MySQL中order by的执行过程是什么

java中switch语句的执行过程是什么

如何排除 PHP 函数执行过程中的错误？

MySql中sql语句执行过程是什么

JavaScript函数的执行过程是什么

js中递归函数的执行过程是什么

操作系统多线程：探索程序并行执行的奥秘

计算机中程序的执行是不是指令执行的一个循环过程

PHP程序的执行原理是什么

python程序的执行原理是什么

MyBatis的SQL语句执行过程是什么

java switch语句的执行过程是什么

Java程序的运行过程是什么

MySQL查询语句的执行过程是什么

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南