首页 > 资讯 > 精选 >Hadoop体系结构之HDFS的示例分析

923

分享到

Hadoop体系结构之HDFS的示例分析

2023-06-03 03:06:43 923人浏览独家记忆

摘要

这篇文章将为大家详细讲解有关hadoop体系结构之hdfs的示例分析，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。 HDFS采用主从（Master/Slave）结构模型，一个HD

这篇文章将为大家详细讲解有关hadoop体系结构之hdfs的示例分析，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

HDFS采用主从（Master/Slave）结构模型，一个HDFS集群是由一个Namenode和若干个DataNode组成的（在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修改hadoop源代码实现的功能，在最新的版本中就已经实现了）。NameNode作为主服务器，管理文件系统命名空间和客户端对文件的访问操作。DataNode管理存储的数据。HDFS支持文件形式的数据。

从内部来看，文件被分成若干个数据块，这若干个数据块存放在一组DataNode上。NameNode执行文件系统的命名空间，如打开、关闭、重命名文件或目录等，也负责数据块到具体DataNode的映射。DataNode负责处理文件系统客户端的文件读写，并在NameNode的统一调度下进行数据库的创建、删除和复制工作。NameNode是所有HDFS元数据的管理者，用户数据永远不会经过NameNode。

如图：HDFS体系结构图

说明：

图中涉及三个角色：NameNode、DataNode、Client。NameNode是管理者，DataNode是文件存储者、Client是需要获取分布式文件系统的应用程序。

namenode负责：接收用户操作请求维护文件系统的目录结构管理文件与block之间关系，block与datanode之间关系

datanode负责：存储文件文件被分成block存储在磁盘上为保证数据安全，文件会有多个副本

数据写入：

1） Client向NameNode发起文件写入的请求。

2） NameNode根据文件大小和文件块配置情况，返回给Client它管理的DataNode的信息。

3） Client将文件划分为多个block，根据DataNode的地址，按顺序将block写入DataNode块中。

数据读取：

1） Client向NameNode发起读取文件的请求。

2） NameNode返回文件存储的DataNode信息。

3） Client读取文件信息。

数据读取策略，根据前面所说的数据存放策略，数据读取的时候，客户端也有 api 确定自己的机柜 id，读取的时候，如果
有块数据和客户端的机柜 id 一样，就优先选择该数据节点，客户端直接和数据节点建立连接，读取数据。如果没有，就随机选
取一个数据节点。

数据复制：

主要是在数据写入和数据恢复的时候发生，数据复制是使用流水线复制的策略。当客户端要在 hadoop 上面写一个文件，
首先它先把这个文件写在本地，然后对文件进行分块，默认 64m 一块，每块数据都对 hadoop 目录服务器请求，目录服务器选
择一个数据机列表，返回给客户端，然后客户端就把数据写入第一台数据机，并且把列表传给数据机，当数据机接收到 4k 数据
的时候，写入本地并且发起连接到下一台数据机，把这个 4k 传过去，形成一条流水线。当最后文件写完的时候，数据复制也同
时完成，这个就是流水线处理的优势。

HDFS作为分布式文件系统在数据管理方面可借鉴点：

文件块的放置：一个Block会有三份备份，一份在NameNode指定的DateNode上，一份放在与指定的DataNode不在同一台机器的DataNode上，一根在于指定的DataNode在同一Rack上的DataNode上。简单来说就是 1/3 的冗余数据在一个机柜里面，2/3 的冗余数据在另外一个机柜里面。备份的目的是为了数据安全，采用这种方式是为了考虑到同一Rack失败的情况，以及不同数据拷贝带来的性能的问题。

HDFS的设计特点：

大数据文件，非常适合上T级别的大文件或者一堆大数据文件的存储，如果文件只有几个G甚至更小就没啥意思了。

文件分块存储，HDFS会将一个完整的大文件平均分块存储到不同计算器上，它的意义在于读取文件时可以同时从多个主机取不同区块的文件，多主机读取比单主机读取效率要高得多得都。

流式数据访问，一次写入多次读写，这种模式跟传统文件不同，它不支持动态改变文件内容，而是要求让文件一次写入就不做变化，要变化也只能在文件末添加内容。

廉价硬件，HDFS可以应用在普通PC机上，这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。

硬件故障，HDFS认为所有计算机都可能会出问题，为了防止某个主机失效读取不到该主机的块文件，它将同一个文件块副本分配到其它某几个主机上，如果其中一台主机失效，可以迅速找另一块副本取文件。

HDFS的关键元素：

Block：将一个文件进行分块，通常是64M。

NameNode：保存整个文件系统的目录信息、文件信息及分块信息，这是由唯一一台主机专门保存，当然这台主机如果出错，NameNode就失效了。在Hadoop2.*开始支持activity-standy模式----如果主NameNode失效，启动备用主机运行NameNode。

DataNode：分布在廉价的计算机上，用于存储Block块文件。

补充：HDFS和MR共同组成Hadoop分布式系统体系结构的核心。HDFS在集群上实现了分布式文件系统，MR在集群上实现了分布式计算和任务处理。HDFS在MR任务处理过程中提供了文件操作和存储等支持，MR在HDFS的基础上实现了任务的分发、跟踪、执行等工作，并收集结果，二者相互作用，完成分布式集群的主要任务。

关于“Hadoop体系结构之HDFS的示例分析”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。

--结束END--

本文标题: Hadoop体系结构之HDFS的示例分析

本文链接: https://lsjlt.com/news/232362.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Hadoop体系结构之HDFS的示例分析

Hadoop体系结构之HDFS的示例分析

JVM中体系结构的示例分析

JAVA异常体系结构的示例分析

MongoDB特点与体系结构的示例分析

MySql整体结构的示例分析

Hadoop分布式文件系统HDFS架构分析

MySQL体系结构的实例分析

MySql优化之体系结构及存储引擎的示例分析

HDFS的体系结构有哪些

MySQL体系架构的示例分析

JavaScript之树结构的示例分析

Linux系统结构的示例分析

Oracle体系结构分析

C语言结构体指针的示例分析

hadoop大数据平台架构之DKhadoop的示例分析

PHP数据结构之图存储结构的示例分析

MySQL逻辑体系架构的示例分析

Angular2之结构型指令的示例分析

java数据结构之树的示例分析

C语言中结构体和共用体的示例分析

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南