首页 > 资讯 > 精选 >hadoop三大组件

385

分享到

hadoop三大组件

三大组件 hadoop 2023-10-29 14:10:05 385人浏览独家记忆

摘要

1、hdfs：hadoop分布式文件系统 HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目，主要负责集群数据的存储与读取，HDFS 是一个主/从(Master/Slave) 体

1、hdfs：hadoop分布式文件系统

HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目，主要负责集群数据的存储与读取，HDFS 是一个主/从(Master/Slave) 体系结构的分布式文件系统。HDFS 支持传统的层次型文件组织结构，用户或者应用程序可以创建目录，然后将文件保存在这些目录中。文件系统名字空间的层次结构和大多数现有的文件系统类似，可以通过文件路径对文件执行创建、读取、更新和删除操作。但是由于分布式存储的性质，它又和传统的文件系统有明显的区别。

HDFS优点：

高容错性。HDFS上传的数据自动保存多个副本，可以通过增加副本的数据来增加它的容错性。如果某一个副本丢失，HDFS 会复制其他机器上的副本，而我们不必关注它的实现。
适合大数据的处理。HDFS 能够处理 GB、TB 甚至 PB 级别的数据，规模达百万，数量非常大。(1PB=1024TB、1TB=1014GB)
流式数据访问。HDFS 以流式数据访问模式来存储超大文件，一次写入，多次读取，即文件一旦写入，则不能修改，只能增加。这样可以保持数据的一致性。

2、mapReduce：大规模数据处理

MapReduce 是 Hadoop 核心计算框架，适用于大规模数据集(大于1TB)并行运算的编程模型，包括 Map(映射)和 Reduce(规约) 两部分。

当启动一个 MapReduce 任务时，Map 端会读取 HDFS 上的数据，将数据映射成所需要的键值对类型并传到 Reduce 端。Reduce 端接收 Map 端传过来的键值对类型的数据，根据不同键进行分组，对每一组键相同的数据进行处理，得到新的键值对并输出到 HDFS，这就是 MapReduce 的核心思想。

一个完整的 MapReduce 过程包含数据的输入与分片、Map 阶段数据处理、Reduce 阶段数据处理、数据输出等阶段：

读取输入数据。MapReduce 过程中的数据是从 HDFS 分布式文件系统中读取的。文件在上传到 HDFS 时，一般按照 128MB 分成了几个数据块，所以在运行 MapReduce 程序时，每个数据块都会生成一个 Map，但是也可以通过重新设置文件分片大小调整 Map 的个数，在运行 MapReduce 时会根据所设置的分片大小对文件重新分割(Split)，一个分片大小的数据块就会对应一个Map。
Map 阶段。程序有一个或多个 Map，由默认存储或分片个数决定。针对 Map 阶段，数据以键值对的形式读入，键的值一般为每行首字符与文件最初始位置的偏移量，即中间所隔字符个数，值为这一行的数据记录。根据需求对键值对进行处理，映射成新的键值对，将新的键值对传到 Reduce 端。
Shuffle/Sort 阶段：此阶段是指从 Map 输出开始，传送 Map 输出到 Reduce 作为输入的过程。该过程会将同一个 Map 中输出的键相同的数据先进行一步整合，减少传输的数据量，并且在整合后将数据按照键排序。
Reduce 阶段：Reduce 任务也可以有多个，按照 Map 阶段设置的数据分区确定，一个分区数据被一个 Reduce 处理。针对每一个 Reduce 任务，Reduce 会接收到不同 Map 任务传来的数据，并且每个 Map 传来的数据都是有序的。一个 Reduce 任务中的每一次处理都是针对所有键相同的数据，对数据进行规约，以新的键值对输出到 HDFS。

3、Yarn：资源管理器

Hadoop 的 MapReduce 架构称为 YARN(Yet Another Resource NeGotiator，另一种资源协调者)，是效率更高的资源管理核心。

YARN 主要包含三大模块：Resource Manager（RM）、node Manager（NM）、Application Master（AM）：

Resource Manager 负责所有资源的监控、分配和管理；
Application Master 负责每一个具体应用程序的调度和协调；
Node Manager 负责每一个节点的维护。

常见问答：

为什么HDFS适用于大数据存储？

HDFS通过数据分块和多副本存储的机制，提供了高度可靠和可扩展的存储解决方案。这特别适用于大数据场景，因为它能在廉价硬件上实现高吞吐量和高容错性。

MapReduce和YARN有什么区别？

MapReduce是一个用于数据处理的编程模型，而YARN是一个资源管理器。YARN负责资源的分配和任务的调度，而MapReduce则负责具体的数据处理。

如何选择Hadoop的组件？

选择Hadoop组件主要取决于你的业务需求。如果你需要高效的数据存储，可以优先考虑HDFS。若你需要进行大规模数据处理，MapReduce可能是一个好选择。YARN则可以作为一个通用的资源管理器来使用。

--结束END--

本文标题: hadoop三大组件

本文链接: https://lsjlt.com/news/521053.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

hadoop三大组件

1、hdfs：hadoop分布式文件系统

2、mapReduce：大规模数据处理

3、Yarn：资源管理器

常见问答：

为什么HDFS适用于大数据存储？

MapReduce和YARN有什么区别？

如何选择Hadoop的组件？

hadoop三大组件

hadoop中的三大组件分别是什么

hadoop的两大核心组件是什么

Hadoop栈由哪些组件组成

JavaWeb三大组件之一的Filter详解

React组件三大属性之state,props,refs

Web三大组件之Filter,Listener和Servlet详解

vue组件三大核心的示例分析

React组件三大核心属性StatepropsRefs介绍

Hadoop主要组件包含哪些

Hadoop的核心组件有哪些

hadoop大数据平台硬件需求

JavaNIO三大组件与ByteBuffer深入理解及使用

React组件实例三大属性statepropsrefs使用详解

如何安装与使用Hadoop组件

如何Knative中的Build、Serving 和 Eventing三大核心组件

hadoop各个组件的功能是什么

Hadoop中Oozie组件的作用是什么

React组件封装中三大核心属性详细介绍

hadoop常用四大模块文件是什么

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南