首页 > 资讯 > 数据库 >MapReduce原理深入理解(一)

217

分享到

MapReduce原理深入理解(一)

MapReduce原理深入理解(一) 2019-09-24 11:09:08 217人浏览绘本

摘要

1.MapReduce概念 1）mapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题. 2）MapReduce是分布式运行的，由两个阶段组成：Map和Reduce，Map阶段是一个独立的程

MapReduce原理深入理解(一)

1.MapReduce概念

1）mapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题.

2）MapReduce是分布式运行的，由两个阶段组成：Map和Reduce，Map阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据。Reduce阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据【在这先把reduce理解为一个单独的聚合程序即可】。

3）MapReduce框架都有默认实现，用户只需要覆盖map()和reduce()两个函数，即可实现分布式计算，非常简单。

4）两个函数的形参和返回值都是，使用的时候一定要注意构造。

2.MapReduce核心思想

（1）分布式的运算程序往往需要分成至少2个阶段。

（2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。

（3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。

（4）MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行。

总结：分析WordCount数据流走向深入理解MapReduce核心思想。

3. MapReduce 中的shuffle

4.Mapreduce代码

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFORMat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCount {
    //分割任务
    // 第一对kv,是决定数据输入的格式
    // 第二队kv 是决定数据输出的格式
    public static class MyMapper extends Mapper {
        
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            LongWritable longWritable = new LongWritable(1);
            String s = value.toString();
            context.write(new Text(s), longWritable);
        }
    }
   //接收Map端数据
    public static class MyReducer extends Reducer {
       
        @Override
        protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
            //设置统计的初始值为0
            long sum = 0l;
            for (LongWritable value : values) {
                sum += value.get();
            }
            context.write(key, new LongWritable(sum));
        }
    }

    
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //创建一个job任务
        Job job=Job.getInstance();
        //指定job名称
        job.setJobName("第一个mr程序");
        //构建mr
        //指定当前main所在类名(识别具体的类)
        job.setjarByClass(WordCount.class);
        //指定map端类
        // 指定map输出的kv类型
        job.setMapperClass(MyMapper.class);
        job.setMapOutpuTKEyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);
        //指定reduce端类
        //指定reduce端输出的kv类型
        job.setReducerClass(MyReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        // 指定输入路径
        Path in = new Path("/word");
        FileInputFormat.addInputPath(job,in);
        //输出路径指定
        Path out = new Path("/output");
        FileSystem fs = FileSystem.get(new Configuration());
        //如果文件存在
        if(fs.exists(out)){
            fs.delete(out,true);
        }
        //存在
        FileOutputFormat.setOutputPath(job,out);

        //启动
        job.waitForCompletion(true);
        System.out.println("MapReduce正在执行");
    }
}

您可能感兴趣的文档:

--结束END--

本文标题: MapReduce原理深入理解(一)

本文链接: https://lsjlt.com/news/8790.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

MapReduce原理深入理解(一)

MapReduce原理深入理解(一)

HDFS原理深入理解

深入理解React State 原理

GoComparableType原理深入解析

深入讲解Socket原理

React深入了解原理

一文带你深入理解Vue3响应式原理

深入理解Vue3响应式原理

深入理解React调度(Scheduler)原理

MapReduce的运行原理

Redis字符串原理的深入理解

深入理解spring的AOP机制原理

深入理解 MySQL 索引底层原理

深入理解 MySQL 索引底层原理

深入理解 PHP Stream 的工作原理

深入理解Go语言设计原理

SpringBoot启动原理深入解析

Flutter渲染原理深入解析

Golangsync.Map原理深入分析讲解

深入解析kafka架构原理

关于SQL建表语句使用详解

HBase在大数据审计与合规性追踪中的应用

MySQL与HBase在大数据金融分析中的性能与可扩展性对比

HBase的Region Server之间的网络通信优化

HBase在大数据监控与告警系统中的实时数据处理能力

MySQL与HBase在大数据安全策略中的实现与对比

HBase的分布式事务处理在复杂业务场景中的应用

MySQL与HBase在混合存储架构中的整合策略

HBase如何支持高效的二级索引查询

MySQL与HBase在物联网数据收集与处理中的协作模式