返回顶部
首页 > 资讯 > 精选 >hadoop三大组件
  • 385
分享到

hadoop三大组件

三大组件hadoop 2023-10-29 14:10:05 385人浏览 独家记忆
摘要

1、hdfs:hadoop分布式文件系统 HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取,HDFS 是一个主/从(Master/Slave) 体

1、hdfshadoop分布式文件系统

HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取,HDFS 是一个主/从(Master/Slave) 体系结构的分布式文件系统。HDFS 支持传统的层次型文件组织结构,用户或者应用程序可以创建目录,然后将文件保存在这些目录中。文件系统名字空间的层次结构和大多数现有的文件系统类似,可以通过文件路径对文件执行创建、读取、更新和删除操作。但是由于分布式存储的性质,它又和传统的文件系统有明显的区别。

HDFS优点:

  • 高容错性。HDFS上传的数据自动保存多个副本,可以通过增加副本的数据来增加它的容错性。如果某一个副本丢失,HDFS 会复制其他机器上的副本,而我们不必关注它的实现。
  • 适合大数据的处理。HDFS 能够处理 GB、TB 甚至 PB 级别的数据,规模达百万,数量非常大。(1PB=1024TB、1TB=1014GB)
  • 流式数据访问。HDFS 以流式数据访问模式来存储超大文件,一次写入,多次读取,即文件一旦写入,则不能修改,只能增加。这样可以保持数据的一致性。

2、mapReduce:大规模数据处理

MapReduce 是 Hadoop 核心计算框架,适用于大规模数据集(大于1TB)并行运算的编程模型,包括 Map(映射)和 Reduce(规约) 两部分。

当启动一个 MapReduce 任务时,Map 端会读取 HDFS 上的数据,将数据映射成所需要的键值对类型并传到 Reduce 端。Reduce 端接收 Map 端传过来的键值对类型的数据,根据不同键进行分组,对每一组键相同的数据进行处理,得到新的键值对并输出到 HDFS,这就是 MapReduce 的核心思想。

一个完整的 MapReduce 过程包含数据的输入与分片、Map 阶段数据处理、Reduce 阶段数据处理、数据输出等阶段:

  • 读取输入数据。MapReduce 过程中的数据是从 HDFS 分布式文件系统中读取的。文件在上传到 HDFS 时,一般按照 128MB 分成了几个数据块,所以在运行 MapReduce 程序时,每个数据块都会生成一个 Map,但是也可以通过重新设置文件分片大小调整 Map 的个数,在运行 MapReduce 时会根据所设置的分片大小对文件重新分割(Split),一个分片大小的数据块就会对应一个Map。
  • Map 阶段。程序有一个或多个 Map,由默认存储或分片个数决定。针对 Map 阶段,数据以键值对的形式读入,键的值一般为每行首字符与文件最初始位置的偏移量,即中间所隔字符个数,值为这一行的数据记录。根据需求对键值对进行处理,映射成新的键值对,将新的键值对传到 Reduce 端。
  • Shuffle/Sort 阶段:此阶段是指从 Map 输出开始,传送 Map 输出到 Reduce 作为输入的过程。该过程会将同一个 Map 中输出的键相同的数据先进行一步整合,减少传输的数据量,并且在整合后将数据按照键排序
  • Reduce 阶段:Reduce 任务也可以有多个,按照 Map 阶段设置的数据分区确定,一个分区数据被一个 Reduce 处理。针对每一个 Reduce 任务,Reduce 会接收到不同 Map 任务传来的数据,并且每个 Map 传来的数据都是有序的。一个 Reduce 任务中的每一次处理都是针对所有键相同的数据,对数据进行规约,以新的键值对输出到 HDFS。

3、Yarn:资源管理器

Hadoop 的 MapReduce 架构称为 YARN(Yet Another Resource NeGotiator,另一种资源协调者),是效率更高的资源管理核心。

YARN 主要包含三大模块:Resource Manager(RM)、node Manager(NM)、Application Master(AM):

  • Resource Manager 负责所有资源的监控、分配和管理;
  • Application Master 负责每一个具体应用程序的调度和协调;
  • Node Manager 负责每一个节点的维护。

常见问答:

为什么HDFS适用于大数据存储?

HDFS通过数据分块和多副本存储的机制,提供了高度可靠和可扩展的存储解决方案。这特别适用于大数据场景,因为它能在廉价硬件上实现高吞吐量和高容错性。

MapReduce和YARN有什么区别?

MapReduce是一个用于数据处理的编程模型,而YARN是一个资源管理器。YARN负责资源的分配和任务的调度,而MapReduce则负责具体的数据处理。

如何选择Hadoop的组件?

选择Hadoop组件主要取决于你的业务需求。如果你需要高效的数据存储,可以优先考虑HDFS。若你需要进行大规模数据处理,MapReduce可能是一个好选择。YARN则可以作为一个通用的资源管理器来使用。

--结束END--

本文标题: hadoop三大组件

本文链接: https://lsjlt.com/news/521053.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • hadoop三大组件
    1、HDFS:HADOOP分布式文件系统 HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取,HDFS 是一个主/从(Master/Slave) 体...
    99+
    2023-10-29
    三大 组件 hadoop
  • hadoop中的三大组件分别是什么
    这篇文章主要介绍hadoop中的三大组件分别是什么,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!hadoop三大组件:1、HDFS,一个高可靠、高吞吐量的分布式文件系统;2、MapReduce,一个分布式的离线并行计...
    99+
    2023-06-14
  • hadoop的两大核心组件是什么
    Hadoop的两大核心组件是Hadoop Distributed File System(HDFS)和MapReduce。HDFS是...
    99+
    2024-03-06
    hadoop
  • Hadoop栈由哪些组件组成
    本篇内容介绍了“Hadoop栈由哪些组件组成”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成! 一、Hadoop生态体系 Hadoop 是一个分...
    99+
    2023-06-02
  • JavaWeb三大组件之一的Filter详解
    目录1. 概念2. 基本使用3. 生命周期4. FilterConfig类5. FilterChain类6. 拦截路径7. ThreadLocal+Filter管理事务7.1 Thr...
    99+
    2024-04-02
  • React组件三大属性之state,props,refs
    目录1.1基本理解和使用1.1.1 使用React开发者工具调试1.1.2 定义组件的方式1.1.3 注意1.1.4 渲染类组件标签的基本流程1.2 组件实例的三大核心属性之一:st...
    99+
    2024-04-02
  • Web三大组件之Filter,Listener和Servlet详解
    目录Filter:过滤器Listener:监听器servlet总结Filter:过滤器 1. 概念: * 生活中的过滤器:净水器,空气净化器,土匪、 * web中的过滤器:当访问服...
    99+
    2024-04-02
  • vue组件三大核心的示例分析
    这篇文章主要介绍了vue组件三大核心的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。一、属性 1.自定义属性propsprop 定义...
    99+
    2024-04-02
  • React组件三大核心属性StatepropsRefs介绍
    目录1.statesetState2.props1.传递单个属性2.批量传递属性对props进行限制对props设置默认值state与props的区别3.ref1.state sta...
    99+
    2023-02-15
    React state props refs React组件属性
  • Hadoop主要组件包含哪些
    这篇文章主要介绍“Hadoop主要组件包含哪些”,在日常操作中,相信很多人在Hadoop主要组件包含哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Hadoop主要组件包含...
    99+
    2024-04-02
  • Hadoop的核心组件有哪些
    Hadoop的核心组件包括以下几个: Hadoop Distributed File System (HDFS):分布式文件系统...
    99+
    2024-03-12
    Hadoop
  • hadoop大数据平台硬件需求
    Hadoop是一个分布式计算平台,可以在多台服务器上运行,因此在构建Hadoop大数据平台时,硬件需求主要包括以下几个方面:1. 主...
    99+
    2023-10-11
    大数据
  • JavaNIO三大组件与ByteBuffer深入理解及使用
    目录1、三大组件1.1 Channel & Buffer1.2 Selector2、ByteBuffer2.1 ByteBuffer 正确使用姿势2.2 ByteBuffer...
    99+
    2023-01-16
    Java NIO三大组件 Java ByteBuffer
  • React组件实例三大属性statepropsrefs使用详解
    目录一、 State1.概念2.State的简单用法3. JS绑定事件4.react 绑定事件5.react this指向问题6.修改state值7.代码简写二、props...
    99+
    2024-04-02
  • 如何安装与使用Hadoop组件
    本篇文章给大家分享的是有关如何安装与使用Hadoop组件,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。安装hbase首先下载hbase的最新稳定版本安装到本地目录中,我安装的是...
    99+
    2023-05-31
    hadoop doop
  • 如何Knative中的Build、Serving 和 Eventing三大核心组件
    本篇文章给大家分享的是有关如何Knative中的Build、Serving 和 Eventing三大核心组件,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。作者 | 阿里云智能事...
    99+
    2023-06-04
  • hadoop各个组件的功能是什么
    Hadoop Distributed File System (HDFS): HDFS是Hadoop的分布式文件系统,它用于存储...
    99+
    2024-04-09
    hadoop
  • Hadoop中Oozie组件的作用是什么
    Oozie是Hadoop生态系统中的一个工作流调度系统,用于协调和管理复杂的数据处理工作流。它提供了一个基于XML的工作流描述语言,...
    99+
    2024-03-12
    Hadoop
  • React组件封装中三大核心属性详细介绍
    目录1、介绍2、state概念演示3、props概念props与state区别4、refs概念refs种类5、父子组件什么是父子组件父子组件之间传值1、介绍 React组件中默认封装...
    99+
    2024-04-02
  • hadoop常用四大模块文件是什么
    本篇内容介绍了“hadoop常用四大模块文件是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!core-site.xml(工具模块)。包括...
    99+
    2023-06-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作