1、hdfs:hadoop分布式文件系统 HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取,HDFS 是一个主/从(Master/Slave) 体
HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取,HDFS 是一个主/从(Master/Slave) 体系结构的分布式文件系统。HDFS 支持传统的层次型文件组织结构,用户或者应用程序可以创建目录,然后将文件保存在这些目录中。文件系统名字空间的层次结构和大多数现有的文件系统类似,可以通过文件路径对文件执行创建、读取、更新和删除操作。但是由于分布式存储的性质,它又和传统的文件系统有明显的区别。
HDFS优点:
MapReduce 是 Hadoop 核心计算框架,适用于大规模数据集(大于1TB)并行运算的编程模型,包括 Map(映射)和 Reduce(规约) 两部分。
当启动一个 MapReduce 任务时,Map 端会读取 HDFS 上的数据,将数据映射成所需要的键值对类型并传到 Reduce 端。Reduce 端接收 Map 端传过来的键值对类型的数据,根据不同键进行分组,对每一组键相同的数据进行处理,得到新的键值对并输出到 HDFS,这就是 MapReduce 的核心思想。
一个完整的 MapReduce 过程包含数据的输入与分片、Map 阶段数据处理、Reduce 阶段数据处理、数据输出等阶段:
Hadoop 的 MapReduce 架构称为 YARN(Yet Another Resource NeGotiator,另一种资源协调者),是效率更高的资源管理核心。
YARN 主要包含三大模块:Resource Manager(RM)、node Manager(NM)、Application Master(AM):
HDFS通过数据分块和多副本存储的机制,提供了高度可靠和可扩展的存储解决方案。这特别适用于大数据场景,因为它能在廉价硬件上实现高吞吐量和高容错性。
MapReduce是一个用于数据处理的编程模型,而YARN是一个资源管理器。YARN负责资源的分配和任务的调度,而MapReduce则负责具体的数据处理。
选择Hadoop组件主要取决于你的业务需求。如果你需要高效的数据存储,可以优先考虑HDFS。若你需要进行大规模数据处理,MapReduce可能是一个好选择。YARN则可以作为一个通用的资源管理器来使用。
--结束END--
本文标题: hadoop三大组件
本文链接: https://lsjlt.com/news/521053.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
2024-05-24
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
0