返回顶部
首页 > 资讯 > 后端开发 > Python >hadoop详解如何实现数据排序
  • 509
分享到

hadoop详解如何实现数据排序

2024-04-02 19:04:59 509人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

目录前言mapReduce排序MapReduce排序分类1、部分排序2、全排序3、辅助排序4、二次排序自定义排序案例1、自定义一个Bean对象,实现WritableComparabl

前言

hadoop的MapReduce中,提供了对于客户端的自定义排序的功能相关api

MapReduce排序

  • 默认情况下,MapTask 和ReduceTask均会对数据按照key进行排序
  • 默认的排序按照字典序,且实现排序的方法是快排

MapReduce排序分类

1、部分排序

MapReduce根据输入记录的键值对数据集总体排序,确保输出的文件内部数据有序

2、全排序

最终的输出结果只有一个文件,且内部有序,实现方式是只设置一个ReduceTask,但是这种做法在处理的某个文件特别大的时候,效率会非常低,这也就丧失了MapReduce提供的并行处理任务的能力

3、辅助排序

在Reduce端对key进行分组,比如说,在接收的key为bean对象的时候,想让一个或多个字段相同的key进入到同一个reduce方法时,可以采用分组排序

4、二次排序

在自定义排序中,compareto的判断条件为两个或者多个时即为二次排序

自定义排序案例

还记得在序列化一篇中,那个针对手机号的峰值流量和峰谷流量的例子吧,我们直接以该案例的输出结果为输入数据,对这个结果文件中按照总流量进行排序

期望输出数据的格式如:

1、自定义一个Bean对象,实现WritableComparable 接口

实现该接口后,重写compareTo方法,需要排序的字段逻辑就在compareTo中编写


import org.apache.hadoop.io.WritableComparable;

import java.io.Datainput;
import java.io.DataOutput;
import java.io.IOException;

public class PhoneSortBean implements WritableComparable<PhoneSortBean> {

    //峰值流量
    private long upFlow;
    //低谷流量
    private long downFlow;
    //总流量
    private long sumFlow;

    @Override
    public int compareTo(PhoneSortBean o) {
        if (this.sumFlow > o.sumFlow) {
            return -1;
        }else if(this.sumFlow < o.sumFlow){
            return 1;
        }else {
            return 0;
        }
    }

    //提供无参构造
    public PhoneSortBean() {
    }

    //提供三个参数的getter和setter方法
    public long getUpFlow() {
        return upFlow;
    }

    public void setUpFlow(long upFlow) {
        this.upFlow = upFlow;
    }

    public long getDownFlow() {
        return downFlow;
    }

    public void setDownFlow(long downFlow) {
        this.downFlow = downFlow;
    }

    public long getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(long sumFlow) {
        this.sumFlow = sumFlow;
    }

    public void setSumFlow() {
        this.sumFlow = this.upFlow + this.downFlow;
    }

    //实现序列化和反序列化方法,注意顺序一定要保持一致
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeLong(upFlow);
        dataOutput.writeLong(downFlow);
        dataOutput.writeLong(sumFlow);
    }

    @Override
    public void readFields(DataInput dataInput) throws IOException {
        this.upFlow = dataInput.readLong();
        this.downFlow = dataInput.readLong();
        this.sumFlow = dataInput.readLong();
    }

    //重写ToString方法
    @Override
    public String toString() {
        return upFlow + "\t" + downFlow + "\t" + sumFlow;
    }
}

2、自定义Mapper

设想一下,既然数据能排序,Map阶段输出的key应该为自定义的可比较的对象,即为上面的这个bean,value为手机号


import org.apache.commons.lang3.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;
import java.util.LinkedList;

public class SortPhoneMapper extends Mapper<LongWritable, Text, PhoneSortBean,Text> {

    private Text outV = new Text();

    private PhoneSortBean outK = new PhoneSortBean();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        //分割数据
        String[] splits = line.split("\t");
        LinkedList<String> linkedList = new LinkedList<>();
        for(String str:splits){
            if(StringUtils.isNotEmpty(str)){
                linkedList.add(str.trim());
            }
        }
        //抓取需要的数据:手机号,上行流量,下行流量
        String phone = linkedList.get(0);
        String max =  linkedList.get(1);
        String mine = linkedList.get(2);
        //封装outK outV
        outV.set(phone);

        outK.setUpFlow(Long.parseLong(max));
        outK.setDownFlow(Long.parseLong(mine));
        outK.setSumFlow();

        //写出outK outV
        context.write(outK, outV);
    }
}

3、自定义Reducer

Reduce阶段的输出结果仍然以手机号为key,而value为排序后的自定义的bean


import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class SortPhoneReducer extends Reducer<PhoneSortBean,Text , Text, PhoneSortBean> {

    @Override
    protected void reduce(PhoneSortBean key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        for (Text value : values) {
            context.write(value,key);
        }
    }
}

4、自定义Driver类


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFORMat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class SortPhoneJob {

    public static void main(String[] args) throws Exception {

        //1 获取job对象
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        //2 关联本Driver类
        job.setjarByClass(SortPhoneJob.class);

        //3 设置Map端输出KV类型
        job.setReducerClass(SortPhoneReducer.class);
        job.setMapperClass(SortPhoneMapper.class);

        //4 关联Mapper和Reducer
        job.setMapOutpuTKEyClass(PhoneSortBean.class);
        job.setMapOutputValueClass(Text.class);

        //5 设置程序最终输出的KV类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(PhoneSortBean.class);

        //6 设置程序的输入输出路径
        String inPath = "F:\\网盘\\csv\\phone_out_bean.txt";
        String outPath = "F:\\网盘\\csv\\phone_out_sort";
        FileInputFormat.setInputPaths(job, new Path(inPath));
        FileOutputFormat.setOutputPath(job, new Path(outPath));

        //7 提交Job
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }

}

运行上面的程序,观察输出结果,可以看到,总流量按照从大到小的顺序进行了排序

可以看到,最后的3行数据中,总流量相同,如果这时候又提出一个需求,当总流量相同时,再按照峰值流量进行排序,该怎么做呢?

其实只需要在自定义的bean中的compareto方法里面继续添加排序逻辑即可


public int compareTo(PhoneSortBean o) {
        if (this.sumFlow > o.sumFlow) {
            return -1;
        }else if(this.sumFlow < o.sumFlow){
            return 1;
        }else {
            //如果总流量相同的情况下,再按照峰值流量排序
            if(this.upFlow > o.upFlow){
                return -1;
            }else if(this.upFlow < o.upFlow){
                return 1;
            }else {
                return 0;
            }
        }
    }

分区内排序案例

业务需求,上面的案例中,我们进一步提出新的需求,针对不同的手机号最终写到不同的文件中,那么在上面的基础上,还需要结合自定义分区的逻辑

需要改造的包括2点:

  • 添加一个自定义分区器,按照业务规则指定分区号
  • 改造Driver类,添加自定义分区器,设置MapReduceTask任务个数

1、添加自定义分区


public class MyPartioner extends Partitioner<MyPhoneBean, Text> {

    @Override
    public int getPartition(MyPhoneBean myPhoneBean, Text text, int partion) {
        String phone = text.toString();
        if(phone.startsWith("135")){
            return 0;
        }else if(phone.startsWith("136")){
            return 1;
        }else if(phone.startsWith("137")){
            return 2;
        }else {
            return 3;
        }
    }

}

2、改造Driver类

其他的逻辑和上面的保持一致即可


public class MyDriver {

    public static void main(String[] args) throws Exception {

        //1 获取job对象
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        //2 关联本Driver类
        job.setJarByClass(MyDriver.class);

        //3 设置Map端输出KV类型
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);

        //4 关联Mapper和Reducer
        job.setMapOutputKeyClass(MyPhoneBean.class);
        job.setMapOutputValueClass(Text.class);

        //5 设置程序最终输出的KV类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(MyPhoneBean.class);

        //6、设置输出文件为2个
        job.setNumReduceTasks(4);
        job.setPartitionerClass(MyPartioner.class);

        //7、 设置程序的输入输出路径
        String inPath = "F:\\网盘\\csv\\phone_out_bean.txt";
        String outPath = "F:\\网盘\\csv\\phone_out_sort";
        FileInputFormat.setInputPaths(job, new Path(inPath));
        FileOutputFormat.setOutputPath(job, new Path(outPath));

        //7 提交Job
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }

}

运行上面的程序,然后随机打开其中的两个文件检查下是否满足上面的需求,可以看到,文件最终输出到4个分区文件下,并且每个分区文件内的总流量也是按照从高到低的顺序

到此这篇关于hadoop 详解如何实现数据排序的文章就介绍到这了,更多相关hadoop 数据排序内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: hadoop详解如何实现数据排序

本文链接: https://lsjlt.com/news/140084.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • hadoop详解如何实现数据排序
    目录前言MapReduce排序MapReduce排序分类1、部分排序2、全排序3、辅助排序4、二次排序自定义排序案例1、自定义一个Bean对象,实现WritableComparabl...
    99+
    2024-04-02
  • mybatis如何实现的数据库排序
    目录mybatis数据库排序mybatis order by 排序方式能够很大程度防止sql注入order by 之后要使用$而非#mybatis数据库排序 今天用到了对数据库按照倒...
    99+
    2024-04-02
  • 如何实现计数排序
    这篇文章主要介绍“如何实现计数排序”,在日常操作中,相信很多人在如何实现计数排序问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何实现计数排序”的疑惑有所帮助!接下来,请跟着...
    99+
    2024-04-02
  • 详解JavaScript如何实现四种常用排序
    目录一、插入排序直接插入排序二、交换排序(1)冒泡排序(2)快速排序三、选择排序(1)简单选择排序(2)堆排序四、归并排序一、插入排序 插入排序有直接插入排序,折半插入排序,希尔排序...
    99+
    2024-04-02
  • MySQL如何对数据进行排序图文详解
    目录一、 排序的基本使用二、 使用列的别名来排序三、 二级排序总结一、 排序的基本使用 在查询数据时,如果没有使用排序操作,默认情况下SQL会按元组添加的顺序来排列查询结果。在SQL...
    99+
    2022-11-13
    mysql数据排序规则 MySQL数据排序 MySQL中排序
  • 如何使用MongoDB实现数据排序功能
    如何使用MongoDB实现数据排序功能引言:MongoDB是一种非关系型数据库,它以文档的形式组织数据,并且提供了丰富的查询操作。在实际应用中,数据的排序是非常常见的需求之一。本文将介绍如何使用MongoDB实现数据排序功能,并提供具体的代...
    99+
    2023-10-22
    MongoDB 实现 数据排序
  • Java排序算法之计数排序如何实现
    这篇文章主要为大家展示了“Java排序算法之计数排序如何实现”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Java排序算法之计数排序如何实现”这篇文章吧。计数排序是非比较的排序算法,用辅助数组对...
    99+
    2023-06-21
  • js如何实现数字排序
    这篇文章主要介绍了js如何实现数字排序,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。数字排序默认地,sort() 函数按照字符串顺序对值进行...
    99+
    2024-04-02
  • java如何实现数组排序
    这篇文章主要为大家展示了“java如何实现数组排序”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“java如何实现数组排序”这篇文章吧。数组排序(冒泡排序)public class&nb...
    99+
    2023-06-27
  • PHP如何实现数组排序
    这篇文章主要为大家展示了“PHP如何实现数组排序”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“PHP如何实现数组排序”这篇文章吧。数组排序 a - b 是数字数组写法 遇到字符串的时候就要var...
    99+
    2023-06-03
  • Java实现自定义Excel数据排序的方法详解
    目录1.引入jar包2.自定义排序通常,我们可以在Excel中对指定列数据执行升序或者降序排序,排序时可依据单元格中的数值、单元格颜色、字体颜色或图标等。在需要自定义排序情况下,我们...
    99+
    2024-04-02
  • 详解如何在Java中实现堆排序算法
    目录算法描述实现代码测试代码算法描述 堆排序算法的描述如下: 将待排序的数组调整为最大堆,此时未排序的长度 N 为数组的长度,调整的过程就是倒序将数组的前&nbs...
    99+
    2024-04-02
  • 详解Elasticsearch如何实现简单的脚本排序
    目录1、背景2、分析3、构建数据3.1 mapping3.2 插入数据4、实现4.1 根据省升序排序4.2 湖北省排第一4.3 湖北省排第一,其余省升序排序,按照年龄倒序5、完整代码...
    99+
    2023-01-13
    Elasticsearch实现脚本排序 Elasticsearch脚本排序 Elasticsearch排序
  • 深入了解Hadoop如何实现序列化
    目录前言为什么要序列化为什么不使用Java序列化Hadoop序列化特点Hadoop序列化业务场景案例业务描述编码实现前言 序列化想必大家都很熟悉了,对象在进行网络传输过程中,需要序列...
    99+
    2024-04-02
  • GridView如何实现拖拽排序及数据交互
    这篇文章主要介绍了GridView如何实现拖拽排序及数据交互,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。在研究项目中的一个效果的时候,查找资料过程中发现有人有这么一种需求,...
    99+
    2023-06-25
  • PHP中如何实现数组排序
    本篇文章给大家分享的是有关PHP中如何实现数组排序,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。在了解了usort自定义排序后,我们再来看看sort(),这个函数可谓是数组里的...
    99+
    2023-06-17
  • mysql如何实现排序
    mysql中实现排序的方法有以下几种通过在数据表使用以下命令实现的排序单列排序SELECT * FROM test1 ORDER BY date_time多列排序 SELECT * FROM test1 ORDER BY `...
    99+
    2024-04-02
  • thinkphp如何实现排序
    这篇文章主要介绍“thinkphp如何实现排序”,在日常操作中,相信很多人在thinkphp如何实现排序问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”thinkphp如何实现排序”的疑惑有所帮助!接下来,请跟...
    99+
    2023-07-04
  • Java桶排序之基数排序详解
    基数排序也是桶排序的一种,也是跟样本数据强相关的,且基数排序要求样本数据是非负的十进制数,如果有小数或者负数,那么代码将要大量重写!这就是不基于比较的排序的弊端。一般来说,我们认为基...
    99+
    2024-04-02
  • Java集合和数据结构排序实例详解
    目录概念插入排序直接插入排序代码实现性能分析希尔排序代码实现性能分析选择排序直接选择排序代码实现性能分析堆排序代码实现性能分析交换排序冒泡排序代码实现性能分析快速排序代码实现性能分析...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作