首页 > 资讯 > 精选 >hadoop如何自定义分区

477

分享到

hadoop如何自定义分区

2023-06-29 07:06:55 477人浏览八月长安

摘要

今天小编给大家分享一下hadoop如何自定义分区的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。分区概念分区这个词对很多同学来

今天小编给大家分享一下hadoop如何自定义分区的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。

分区概念

分区这个词对很多同学来说并不陌生，比如Java很多中间件中，像kafka的分区，mysql的分区表等，分区存在的意义在于将数据按照业务规则进行合理的划分，方便后续对各个分区数据高效处理

Hadoop分区

hadoop中的分区，是把不同数据输出到不同reduceTask ，最终到输出不同文件中

hadoop 默认分区规则

hash分区
按照key的hashCode % reduceTask 数量 = 分区号
默认reduceTask 数量为1，当然也可以在driver 端设置

以下是Partition 类中摘取出来的源码，还是很容易懂的

hadoop如何自定义分区

hash分区代码演示

下面是Wordcount案例中的driver部分的代码，默认情况下我们不做任何设置，最终输出一个统计单词个数的txt文件，如果我们在这段代码中添加这样一行

hadoop如何自定义分区

再次运行下面的程序后，会出现什么结果呢？

public class DemoJobDriver {    public static void main(String[] args) throws Exception {        //1、获取job        Configuration configuration = new Configuration();        Job job = Job.getInstance(configuration);        //2、设置jar路径        job.setJarByClass(DemoJobDriver.class);        //3、关联mapper 和 Reducer        job.setMapperClass(DemoMapper.class);        job.setReducerClass(DemoReducer.class);        //4、设置 map输出的 key/val 的类型        job.setMapOutpuTKEyClass(Text.class);        job.setMapOutputValueClass(IntWritable.class);        //5、设置最终输出的key / val 类型        job.setOutputKeyClass(Text.class);        job.setOutputValueClass(IntWritable.class);        //6、设置最终的输出路径        String inputPath = "F:\\网盘\\csv\\hello.txt";        String outPath = "F:\\网盘\\csv\\wordcount\\hello_result.txt";        //设置输出文件为2个        job.setNumReduceTasks(2);        FileInputFORMat.setInputPaths(job,new Path(inputPath));        FileOutputFormat.setOutputPath(job,new Path(outPath));        // 7 提交job        boolean result = job.waitForCompletion(true);        System.exit(result ? 0 : 1);    }}

hadoop如何自定义分区

可以看到，最终输出了2个统计结果文件，每个文件中的内容有所不同，这就是默认情况下，当reducer个数设置为多个时，会按照hash分区算法计算结果并输出到不同分区对应的文件中去

自定义分区步骤

自定义类继承Partitioner
重写getPartition方法，并在此方法中根据业务规则控制不同的数据进入到不同分区
在Job的驱动类中，设置自定义的Partitioner类
自定义Partition后，要根据自定义的Partition逻辑设置相应数量的ReduceTask

业务需求

将下面文件中的人物名称按照姓氏，“马”姓的放入第一个分区，“李”姓的放入第二个分区，其他的放到其他第三个分区中

hadoop如何自定义分区

自定义分区

import org.apache.commons.lang3.StringUtils;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.mapReduce.Partitioner;import org.apache.hadoop.io.Text;public class MyPartioner extends Partitioner<Text, IntWritable> {    @Override    public int getPartition(Text text, IntWritable intWritable, int partion) {        String key = text.toString();        if(StringUtils.isNotEmpty(key.trim())){            if(key.startsWith("马")){                partion = 0;            }else if(key.startsWith("李")){                partion = 1;            }else {                partion = 2;            }        }        return partion;    }}

将自定义分区关联到Driver类中，注意这里的ReduceTasks个数和自定义的分区数量保持一致

job.setNumReduceTasks(3);job.setPartitionerClass(MyPartioner.class);

下面运行Driver类，观察最终的输出结果，也是按照预期，将不同的姓氏数据输出到了不同的文件中

hadoop如何自定义分区

关于自定义分区的总结

如果ReduceTask的数量 > 自定义partion中的分区数量，则会多产生几个空的输出文件
如果 1 < ReduceTask < 自定义partion中的分区数量，有一部分的数据处理过程中无法找到相应的分区文件存储，会抛异常
如果ReduceTask = 1 ，则不管自定义的partion中分区数量为多少个，最终结果都只会交给这一个ReduceTask 处理，最终只会产生一个结果文件
分区号必须从0开始，逐一累加

以上就是“hadoop如何自定义分区”这篇文章的所有内容，感谢各位的阅读！相信大家阅读完这篇文章都有很大的收获，小编每天都会为大家更新不同的知识，如果还想学习更多的知识，请关注编程网精选频道。

--结束END--

本文标题: hadoop如何自定义分区

本文链接: https://lsjlt.com/news/323200.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

hadoop如何自定义分区

分区概念

Hadoop分区

自定义分区步骤

业务需求

hadoop如何自定义分区

hadoop中mapreducez如何自定义分区

hadoop全面解读自定义分区

hadoop如何自定义格式化输出

hadoop如何自定义GroupComparator实现求最大值

「 Hadoop」mapreduce对温度数据进行自定义排序、分组、分区等【转载】

怎么自定义JDBCRDD的分区

如何用 Golang 创建自定义时区？

JavaScript如何自定义分页样式

Angular2如何自定义分页组件

Android如何自定义评分控件

Hadoop中怎么自定义输出排序

js+css如何自定义分页效果

angularjs+bootstrap如何实现自定义分页

win10自定义分辨率如何设置

AntDesignVuetable组件如何自定义分页器

ubuntu21.04系统怎么自定义分区安装?

db2 定义分区表和分区键

Django自定义分页

Angular2如何自定义validators

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南