返回顶部
首页 > 资讯 > 精选 >如何进行MapReduce数据序列化读写概念的浅析
  • 940
分享到

如何进行MapReduce数据序列化读写概念的浅析

2023-06-02 21:06:33 940人浏览 八月长安
摘要

这期内容当中小编将会给大家带来有关如何进行mapReduce数据序列化读写概念的浅析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。MapReduce为处理简单数据格式(如日志文件)提供了简明的文档支持,但

这期内容当中小编将会给大家带来有关如何进行mapReduce数据序列化读写概念的浅析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

MapReduce为处理简单数据格式(如日志文件)提供了简明的文档支持,但MapReduce已经从日志文件发展到更复杂的数据序列化格式(如文本,XML和JSON)处理,本章的目标是记录如何使用常见的数据序列化格式,以及检查更结构化的序列化格式,并比较它们与MapReduce的适用性。下面主要介绍了MapReduce处理以不同格式(如XML和jsON)存储数据的方法,为更深入了解Avro和Parquet等这类适合大数据hadoop的数据格式铺平了道路。

数据序列化 - 使用文本及其他方法

如果希望使用无处不在的XML和JSON数据序列化格式,这些格式在大多数编程语言中都可直接工作,有多种工具可用于编组、解组和验证。但是,在MapReduce中使用XML和JSON面临两大挑战。首先,MapReduce需要能够支持读写特定数据序列化格式的类,如果想使用自定义文件格式,那么很可能没有相应的类支持正在使用的序列化格式;其次,MapReduce的强大之处在于能够并行读取输入数据,如果输入文件很大(数百兆字节甚至更多),读取序列化格式的类能够将较大文件拆分以便多个任务可以并行读取,这一点至关重要。

XML和JSON格式

MapReduce中的数据序列化支持是读取和写入MapReduce数据输入和输出类属性,让我们首先概述MapReduce如何支持数据输入和输出。

3.1 了解MapReduce中的输入和输出

你的数据可能位于许多FTP服务器后面的XML文件、中央WEB服务器上的文本日志文件或hdfs中的Lucene索引。MapReduce如何跨多种存储机制读取和写入这些不同的序列化结构?

如何进行MapReduce数据序列化读写概念的浅析

图3.1 MapReduce中的输入和输出actor

图3.1显示了通过MapReduce的数据流,并确定了负责流的各部分参与者。在输入端,我们可以看到某些工作(创建拆分)在map阶段以外执行,而其他工作则作为map阶段的一部分执行(读取拆分),所有输出工作都在reduce阶段(写输出)执行。

图3.2 显示了仅使用map作业的相同流程,在仅map作业中,MapReduce框架仍使用OutputFORMat和RecordWriter类将输出直接写入数据接收器。让我们来看看数据流并讨论各角色的责任,我们还将查看内置TextInputFormat和TextOutputFormat类中的相关代码,以更好地理解这些概念,TextInputFormat和TextOutputFormat类读取和写入面向行的文本文件。

3.1.1数据输入支持

MapReduce中数据输入的两个类是InputFormat和RecordReader,查询InputFormat类以确定应如何为map任务分区输入数据,并且RecordReader执行从输入读取数据。

INPUTFORMAT

MapReduce中的每个作业都必须根据InputFormat抽象类中指定的规则定义其输入。InputFormat实现者必须完成三步:描述map输入键和值类型信息;指定输入数据应该如何分区;指示应该从源读取数据的RecordReader实例。

如何进行MapReduce数据序列化读写概念的浅析

图3.2没有Reducer的MapReduce输入和输出actor

如何进行MapReduce数据序列化读写概念的浅析

图3.3带注释的InputFormat类及其三个规则

可以说,最重要的规则是确定如何划分输入数据。在MapReduce命名法中,这些划分称为输入拆分。输入拆分直接影响map并行效率,因为每个拆分由单个map任务处理。 使用无法在单个数据源(例如文件)上创建多个输入拆分的InputFormat将导致map阶段进行缓慢,因为将会按顺序处理该文件。

TextInputFormat类提供了InputFormat类的createRecordReader方法实现,但它将输入拆分的计算委托给其父类FileInputFormat。以下代码显示了TextInputFormat类的相关部分:

如何进行MapReduce数据序列化读写概念的浅析 

确定输入拆分的FileInputFormat代码稍微复杂,以下示例显示了代码的简化形式,以描述getSplits方法的主要元素:

如何进行MapReduce数据序列化读写概念的浅析

以下代码显示了如何指定用于MapReduce作业的InputFormat:

job.setInputFormatClass(TextInputFormat.class);

RECORDREADER

我们将在map任务中创建和使用RecordReader类,以从输入拆分中读取数据,并以 key/value形式提供每个记录供mapper使用。通常为每个输入拆分创建一个任务,每个任务都有一个RecordReader,负责读取该输入拆分的数据。

如何进行MapReduce数据序列化读写概念的浅析

图3.4 带注释的RecordReader类及其抽象方法

如前所示,TextInputFormat类创建一个LineRecordReader以从输入拆分中读取记录。LineRecordReader直接扩展RecordReader类,并使用LineReader类从输入拆分中读取行。LineRecordReader使用文件中的字节偏移量作为map key,并使用行的内容作为map value。 以下示例显示了LineRecordReader的简化版本:

如何进行MapReduce数据序列化读写概念的浅析

因为LineReader类很简单,所以我们将跳过该代码。下一步是查看MapReduce如何支持数据输出。

3.1.2 数据输出

MapReduce使用与输入类似的过程来支持输出数据。必须存在两个类:OutputFormat和RecordWriter。OutputFormat执行数据接收器属性的一些基本验证,RecordWriter将每个reducer输出写入数据接收器。

OUTPUTFORMAT

与InputFormat类非常相似,OutputFormat类(如图3.5所示)定义了实现必须满足的条件:检查与作业输出相关的信息;提供RecordWriter并指定输出提交者;允许写入并在任务完成时保持“permanent”。

如何进行MapReduce数据序列化读写概念的浅析

图3.5 带注释的OutputFormat类

就像TextInputFormat一样,TextOutputFormat还扩展了一个基类FileOutputFormat,负责复杂的数据流操作,例如输出提交。接下来,我们来看看TextOutputFormat执行工作流程,以下代码显示了如何指定用于MapReduce作业的OutputFormat:

job.setOutputFormatClass(TextOutputFormat.class);

RECORDWRITER

我们将使用RecordWriter将reducer输出写入目标数据接收器。这是一个简单的类,如图3.6所示。

如何进行MapReduce数据序列化读写概念的浅析

TextOutputFormat返回一个LineRecordWriter对象,它是TextOutputFormat的内部类,用于执行对文件写入,以下示例显示了该类的简化版本:

如何进行MapReduce数据序列化读写概念的浅析

在map端,InputFormat可确定执行了多少个map任务;在reducer端,任务的数量完全基于客户端设置的mapred.reduce.tasks值(如果没有设置, 该值会从mapred-site.xml中获取,如果站点文件中不存在,则从mapred-default.xml获取)。

上述就是小编为大家分享的如何进行MapReduce数据序列化读写概念的浅析了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注编程网精选频道。

--结束END--

本文标题: 如何进行MapReduce数据序列化读写概念的浅析

本文链接: https://lsjlt.com/news/231315.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 如何进行MapReduce数据序列化读写概念的浅析
    这期内容当中小编将会给大家带来有关如何进行MapReduce数据序列化读写概念的浅析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。MapReduce为处理简单数据格式(如日志文件)提供了简明的文档支持,但...
    99+
    2023-06-02
  • 如何浅析C++仿函数的基本概念
    这期内容当中小编将会给大家带来有关如何浅析C++仿函数的基本概念,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。C++编程语言为我们带来了非常大的好处。不过即使是我们经常使用的功能也有很多比较高深的内容值得...
    99+
    2023-06-17
  • C++ 函数库如何进行序列化和反序列化?
    c++++ 函数库序列化和反序列化指南序列化:创建输出流并将其转换为存档格式。将对象序列化到存档中。反序列化:创建输入流并将其从存档格式恢复。从存档中反序列化对象。实战示例:序列化:创建...
    99+
    2024-04-18
    c++ 序列化 反序列化
  • Redis中如何利用序列化进行数据分片
    Redis中可以使用序列化来对数据进行分片。在分片时,可以根据数据键名进行序列化处理,然后根据序列化后的数据进行分片操作。 具体步骤...
    99+
    2024-04-29
    Redis
  • Java如何利用Socket进行数据读写
    目录利用Socket进行数据读写InetAddress与URLSocket通信UDP通信Socket通信中,持续单向读写的同步问题发送端Socket操作(Socket send)接收...
    99+
    2024-04-02
  • 如何进行Elasticsearch数据写入的分析
    这期内容当中小编将会给大家带来有关如何进行Elasticsearch数据写入的分析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。前言主要讲 ES -> Lucene...
    99+
    2024-04-02
  • 如何进行Python数据编组对文字串的读写
    如何进行Python数据编组对文字串的读写,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。使用前一节中介绍的模块,可以实现在文件中对字符串的读写。然而,有的时候,...
    99+
    2023-06-17
  • 如何将Spring的动态数据源进行读写分离
    这篇文章给大家介绍如何将Spring的动态数据源进行读写分离,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。一、创建基于ThreadLocal的动态数据源容器,保证数据源的线程安全性package com.bo...
    99+
    2023-05-31
    spring 数据源 读写分离
  • 如何进行JavaScript数据扁平化分析
    如何进行JavaScript数据扁平化分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。什么是扁平化数组的扁平化,就是将一个嵌套多层的数组 array (嵌套可...
    99+
    2023-06-21
  • Redis中如何处理二进制序列化数据
    在Redis中处理二进制序列化数据通常使用二进制安全字符串来存储数据。Redis的字符串值是二进制安全的,可以存储任意类型的数据,包...
    99+
    2024-04-29
    Redis
  • 如何使用Vue进行数据传递(方法浅析)
    Vue是一个流行的JavaScript框架,它可以帮助我们构建高效的用户界面。在Vue中,有多种方法可以进行数据传递,这些方法可以应用于单个组件或整个Vue实例。本文将介绍如何使用Vue进行数据传递。PropsProps是Vue提供的一种属...
    99+
    2023-05-14
  • 如何使用Python中的pickle和JSON进行对象序列化和反序列化
    如何使用Python中的pickle和JSON进行对象序列化和反序列化Python是一种简单而强大的编程语言,其内置了许多有用的库和模块,使开发人员能够快速进行各种任务。其中,pickle和JSON是两个常用的模块,用于对象序列化和反序列化...
    99+
    2023-10-22
    序列化 JSON pickle
  • 如何在Storm中处理数据的序列化和反序列化
    在Apache Storm中处理数据的序列化和反序列化通常涉及使用序列化库或框架,如Apache Avro,Apache Thrif...
    99+
    2024-03-07
    Storm
  • Storm中的数据序列化和反序列化是如何实现的
    在Storm中的数据序列化和反序列化是通过实现backtype.storm.serialization.Serializer接口来实...
    99+
    2024-03-13
    Storm
  • 如何优化数据库的数据序列模式
    优化数据库的数据序列模式可以通过以下几种方式来实现: 使用合适的数据类型:选择合适的数据类型可以减小数据存储的空间占用,提高检索和处理数据的效率。避免使用过大的数据类型,尽量使用整数类型代替字符类型等。 设计合适的索引:对经常被查询...
    99+
    2024-07-03
    数据库
  • Hive中的时间序列分析是如何进行的
    在Hive中进行时间序列分析通常涉及以下步骤: 创建时间序列数据表:首先,需要创建一个包含时间序列数据的表。可以使用Hive的C...
    99+
    2024-04-02
  • PHP中如何进行数据可视化和大数据分析?
    随着互联网和大数据的不断发展,数据分析和可视化已经成为了各种行业中非常重要的一个环节。而在现代Web应用程序中,PHP作为一种强大的服务器端语言,也提供了许多工具和库来帮助开发人员进行数据可视化和大数据分析。在本文中,我们将探讨如何使用PH...
    99+
    2023-05-22
    可视化 大数据 分析
  • 如何进行生产数据库性能优化的分析
    这期内容当中小编将会给大家带来有关如何进行生产数据库性能优化的分析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。需求:在钉钉群个人简介页面需要显示钉钉群名称和简介,每个群...
    99+
    2024-04-02
  • 如何进行Liferay Portal Json Web Service 反序列化漏洞(CVE-2020-7961)的分析
    如何进行Liferay Portal Json Web Service 反序列化漏洞(CVE-2020-7961)的分析,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。Lif...
    99+
    2023-06-04
  • PHP中如何进行时序数据分析和处理?
    PHP是一种开源的脚本语言,可以用于构建各种类型的网站和应用程序,因此在网站开发和数据分析方面广泛应用。时序数据是指以时间为基础的数据集合,如传感器数据、金融数据等。在处理这些数据时,需要了解PHP中的时序数据分析和处理方式。一、时序数据分...
    99+
    2023-05-22
    分析 处理 时序数据
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作