首页 > 资讯 > 数据库 >MapReduce切片机制及执行流程

266

分享到

MapReduce切片机制及执行流程

MapReduce切片机制及执行流程 2017-01-02 00:01:16 266人浏览才女

摘要

mapReduce的切片机制在Map阶段会将读取进来的数据进行逻辑切片进行处理。此切片与hdfs的切块不同，HDFS的切块是将文件按照block块的形式保存起来，mr则是将文件按照切片数进行计算默认切片大小等于块大小，也就是128m切一

MapReduce切片机制及执行流程

mapReduce的切片机制

在Map阶段会将读取进来的数据进行逻辑切片进行处理。
此切片与hdfs的切块不同，HDFS的切块是将文件按照block块的形式保存起来，mr则是将文件按照切片数进行计算
默认切片大小等于块大小，也就是128m切一片，切片数与MapTask的数量是一致的，MapTask的并行度是由客户端提交Job时的切片数决定的

MR的执行流程

MapTask阶段可以分为五个阶段

Read阶段：MapTask根据用户编写的Reader从中解析出一个key/vaule
Map阶段：将读取到的key/value交给用户编写的 map函数进行处理，然后产生新的key/value
Clooect收集阶段：当数据通过map函数处理过后会调用context.write此函数会将生成的key/value进行分区(调用Partition)，
***（partiton可以自定义分区，也可以使用默认的分区器HashPartition，默认的分区器会按照我们设置的reduceTask的数量进行分区
也就是如果只设置了一个reduceTask就只会有一个分区，如果分区数不是1而reduceTask是1的话，不会执行分区
因为MapTask执行分区依据是先判断reduceTask的数量）***
并且写入一个环形缓冲区当中。
Spill阶段：即溢写阶段，当环形缓冲区达到80%后会对数据进行溢写，此时会对产生的小文件内部进行一次快排保证每个小文件的内部是有序的，
并在必要时对数据进行合并等操作。
Combine阶段：当所有的数据全都溢写到磁盘后会按照分区对每个分区内的所有小文件进行一次归并排序来形成一个大文件

shuffle阶段

从Map端开始对解析后的key/value进行分区到Reduce端对分区文件进行合并（归并排序）的过程叫做 shuffle。
shuffle的过程总共经过三次排序：
第一次排序是在Map端的环形缓冲区向磁盘刷写内容时，对小文件内的内容进行排序。
第二次排序是在Map端对环形缓冲区刷写出来的所有小文件进行合并，为归并排序。
第三次排序是在Reduce段按照分区对分区内文件进行合并，为归并排序。

Reduce和Combiner

combiner是MR程序中Mapper和Reducer之外的一种组件。
combiner组件的父类就是Reducer
combiner和reducer的区别在于运行的位置：
conbiner：conbiner是在每一个MapTask所在的节点进行运行，用于局部合并
Reducer：reducer是接收全局所有Mapper的输出结果，用于全局合并
combiner的意义就是对每一个maptask的输出进行局部汇总，以减小网络传输量。
并非所有的mr程序都可以使用combiner。combiner能够应用的前提是不能影响最终的业务逻辑，而且，combiner的输出kv应该跟reducer的输入kv类型要对应起来。

原文地址：https://www.cnblogs.com/MMarshall/arcHive/2022/03/04/15962598.html

您可能感兴趣的文档:

--结束END--

本文标题: MapReduce切片机制及执行流程

本文链接: https://lsjlt.com/news/9161.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

MapReduce切片机制及执行流程

mapReduce的切片机制

MR的执行流程

MapTask阶段可以分为五个阶段

shuffle阶段

Reduce和Combiner

MapReduce切片机制及执行流程

mapreduce的执行流程是什么

Handler消息传递机制类引入及执行流程详解

Mysql 架构及执行流程

Python执行流程控制详情

详解Android消息机制完整的执行流程

Handler消息传递机制类引入方法及执行流程是什么

node中http模块的使用及执行流程

Spring事务执行流程及如何创建事务

ThreadPoolExecutor参数含义及源码执行流程详解

Vue异步更新DOM及$nextTick执行机制解读

Checkpoint与state的关系以及Checkpoint的执行机制

PHP异常机制的流程及原理

ThreadPoolExecutor参数含义及源码执行流程是什么

Vue异步更新DOM及$nextTick执行机制源码分析

Mybatis执行流程、缓存原理及相关面试题汇总

Tomcat的类加载机制流程及源码解析

【Mybatis源码解析】mapper实例化及执行流程源码分析

掌握这些流程控制语句，确保你的Python程序顺利执行！

JavaScript控制流程：揭秘代码执行的秘密，掌控程序的命运

关于SQL建表语句使用详解

HBase在大数据审计与合规性追踪中的应用

MySQL与HBase在大数据金融分析中的性能与可扩展性对比

HBase的Region Server之间的网络通信优化

HBase在大数据监控与告警系统中的实时数据处理能力

MySQL与HBase在大数据安全策略中的实现与对比

HBase的分布式事务处理在复杂业务场景中的应用

MySQL与HBase在混合存储架构中的整合策略

HBase如何支持高效的二级索引查询

MySQL与HBase在物联网数据收集与处理中的协作模式

MapReduce切片机制及执行流程

mapReduce的切片机制

MR的执行流程

MapTask阶段 可以分为五个阶段

shuffle阶段

Reduce和Combiner

MapTask阶段可以分为五个阶段