返回顶部
首页 > 资讯 > 后端开发 > Python >关于Hadoop的HDFS集群
  • 485
分享到

关于Hadoop的HDFS集群

Hadoop集群HDFS集群 2023-05-19 12:05:18 485人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录每台计算机中的配置具体步骤配置原型部署集群hdfs 集群是建立在 hadoop 集群之上的,由于 HDFS 是 Hadoop 最主要的守护进程,所以 HDFS 集群的配置过程是

hdfs 集群是建立在 hadoop 集群之上的,由于 HDFS 是 Hadoop 最主要的守护进程,所以 HDFS 集群的配置过程是 Hadoop 集群配置过程的代表。

使用 Docker 可以更加方便地、高效地构建出一个集群环境。

每台计算机中的配置

Hadoop 如何配置集群、不同的计算机里又应该有怎样的配置,这些问题是在学习中产生的。本章的配置中将会提供一个典型的示例,但 Hadoop 复杂多样的配置项远超于此。

HDFS 命名节点对数据节点的远程控制是通过 ssh 来实现的,因此关键的配置项应该在命名节点被配置,非关键的节点配置要在各个数据节点配置。也就是说,数据节点与命名节点的配置可以不同,不同数据节点之间的配置也可以有所不同。

但是本章为了方便建立集群,将使用相同的配置文件通过 Docker 镜像的形式同步到所有的集群节点,特做解释。

具体步骤

总体思路是这样的,我们先用一个包含 Hadoop 的镜像进行配置,配置成集群中所有节点都可以共用的样子,然后再以它为原型生成若干个容器,构成一个集群。

配置原型

首先,我们将使用之前准备的 hadoop_proto 镜像启动为容器:

docker run -d --name=hadoop_temp --privileged hadoop_proto /usr/sbin/init

进入 Hadoop 的配置文件目录:

cd $HADOOP_HOME/etc/hadoop

现在对这里的文件的作用做简单的描述:

文件作用
workers记录所有的数据节点的主机名或 IP 地址
core-site.xmlHadoop 核心配置
hdfs-site.xmlHDFS 配置项
mapred-site.xmlmapReduce 配置项
yarn-site.xmlYARN 配置项

注:YARN 的作用是为 MapReduce 提供资源管理服务,此处暂时用不着。

我们现在设计这样一个简单的集群:

  • 1 个命名节点 nn
  • 2 个数据节点 dn1, dn2

首先编辑 workers ,更改文件内容为:

dn1
​​​​​​​dn2

然后编辑 core-site.xml,在 中添加以下配置项:

<!-- 配置 HDFS 主机地址与端口号 -->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://nn:9000</value>
</property>
<!-- 配置 Hadoop 的临时文件目录 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>file:///home/hadoop/tmp</value>
</property>

配置 hdfs-site.xml,在 中添加以下配置项:

<!-- 每个数据块复制 2 份存储 -->
<property>
    <name>dfs.replication</name>
    <value>2</value>
</property>
<!-- 设置储存命名信息的目录 -->
<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///home/hadoop/hdfs/name</value>
</property>

最后需要配置一下 SSH :

ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsassh-copy-id -i ~/.ssh/id_rsa hadoop@localhost

到此为止,集群的原型就配置完毕了,可以退出容器并上传容器到新镜像 cluster_proto :

docker stop hadoop_tempdocker commit hadoop_temp cluster_proto

此处如果有必要可以删除临时镜像 hadoop_temp 。

部署集群

接下来部署集群。

首先,要为 Hadoop 集群建立专用网络 hnet :

docker network create --subnet=172.20.0.0/16 hnet

接下来创建集群容器:

docker run -d --name=nn --hostname=nn --network=hnet --ip=172.20.1.0 --add-host=dn1:172.20.1.1 --add-host=dn2:172.20.1.2 --privileged cluster_proto /usr/sbin/init
docker run -d --name=dn1 --hostname=dn1 --network=hnet --ip=172.20.1.1 --add-host=nn:172.20.1.0 --add-host=dn2:172.20.1.2 --privileged cluster_proto /usr/sbin/init
docker run -d --name=dn2 --hostname=dn2 --network=hnet --ip=172.20.1.2 --add-host=nn:172.20.1.0 --add-host=dn1:172.20.1.1 --privileged cluster_proto /usr/sbin/init

进入命名节点:

docker exec -it nn su hadoop

格式化 HDFS:

hdfs namenode -fORMat

如果没有出错,那么下一步就可以启动 HDFS:

start-dfs.sh

成功启动之后,jps 命令应该能查到 NameNode 和 SecondaryNameNode 的存在。命名节点不存在 DataNode 进程,因为这个进程在 dn1 和 dn2 中运行。

至此,你可以检测 HDFS 的运行,使用 HDFS 的方式也没有差别(命名节点代表整个集群)。 

到此这篇关于关于Hadoop的HDFS集群的文章就介绍到这了,更多相关HDFS集群内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: 关于Hadoop的HDFS集群

本文链接: https://lsjlt.com/news/213152.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 关于Hadoop的HDFS集群
    目录每台计算机中的配置具体步骤配置原型部署集群HDFS 集群是建立在 Hadoop 集群之上的,由于 HDFS 是 Hadoop 最主要的守护进程,所以 HDFS 集群的配置过程是 ...
    99+
    2023-05-19
    Hadoop 集群 HDFS 集群
  • Hadoop集群搭建
    文章目录 一、运行环境配置(所有节点)1、基础配置2、配置Host 二、依赖软件安装(101节点)1、安装JDK2、安装Hadoop(root)3、Hadoop目录结构 三、本地运行模式(官方WordCount)1、简介...
    99+
    2023-08-30
    hadoop linux java
  • hadoop集群结构
    Hadoop集群结构是由多个节点组成的分布式计算系统。它包括以下几个组件:1. NameNode(主节点):负责管理整个集群的元数据...
    99+
    2023-10-11
    hadoop
  • HDFS的HA集群原理分析
    1.简单hdfs集群中存在的问题 不能存在两个NameNode 单节点问题   单节点故障转移 2.解决单节点问题 找额外一个NameNode备份原有的数据 会出现脑裂 脑裂:一个集群中多个管理者数据不一致 这种情况称之为脑...
    99+
    2016-09-29
    HDFS的HA集群原理分析
  • Hadoop架构及集群
    Hadoop是一个由Apache基金会所开发的分布式基础架构,Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算,特点是:高可靠性,高扩展...
    99+
    2019-05-06
    Hadoop架构及集群
  • 关于docker compose安装redis集群的问题(集群扩容、集群收缩)
    目录一、redis 配置信息模板二、编写批量生成配置文件脚本三、批量生成配置文件四、编写 docker-compose 文件五、做集群、分配插槽六、测试:七、手动扩容八、添加主从节点...
    99+
    2024-04-02
  • Hadoop中HDFS适用于什么场景
    这篇文章给大家分享的是有关Hadoop中HDFS适用于什么场景的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。Hadoop生态系统一直是大数据领域的热点,其中包括今天要聊的HDFS,和计划以后想聊的yarn, ma...
    99+
    2023-06-03
  • 怎么部署Hadoop集群
    本篇内容主要讲解“怎么部署Hadoop集群”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么部署Hadoop集群”吧!环境准备一共用5台机器作为硬件环境,全都是...
    99+
    2024-04-02
  • hadoop查看集群状态
    要查看Hadoop集群的状态,可以使用以下命令:1. 查看Hadoop集群的整体状态,可以运行以下命令:```hadoop dfsa...
    99+
    2023-10-11
    hadoop
  • HADOOP之3节点集群
    1.apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译2.本次搭建使用了2.7.1,hado...
    99+
    2023-01-31
    节点 集群 HADOOP
  • Hadoop集群怎样安装
    这篇文章主要为大家展示了“Hadoop集群怎样安装”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Hadoop集群怎样安装”这篇文章吧。一、安装环境 因为安装Hadoop集群需要的主机数量必须为奇...
    99+
    2023-06-03
  • hadoop如何搭建集群
    搭建Hadoop集群需要以下步骤:1. 确保所有节点的操作系统版本一致,并配置好网络环境。2. 在每个节点上安装Java环境,并设置...
    99+
    2023-08-16
    hadoop
  • hadoop集群如何退出
    要退出Hadoop集群,您可以按照以下步骤进行操作:1. 停止Hadoop所有的守护进程。可以使用以下命令停止Hadoop的守护进程...
    99+
    2023-08-16
    hadoop
  • hadoop和hdfs之间有什么关系
    Hadoop是一个开源的分布式计算框架,用于处理大规模数据的存储和处理。而HDFS(Hadoop Distributed File ...
    99+
    2024-04-02
  • HADOOP集群的最主要瓶颈
    Hadoop集群的最主要瓶颈可以有多个方面,以下是几个常见的瓶颈:1. 网络带宽:Hadoop集群中的各个节点之间需要频繁地进行数据...
    99+
    2023-10-11
    hadoop
  • hadoop集群的作用是什么
    Hadoop集群是一个开源的分布式计算框架,用于存储和处理大规模数据集。其作用主要包括以下几个方面: 存储大规模数据:Hadoo...
    99+
    2024-04-09
    hadoop
  • hadoop集群的特点有哪些
    分布式存储:Hadoop集群采用HDFS(Hadoop分布式文件系统)来存储数据,数据被分散存储在集群的各个节点上,实现了数据的...
    99+
    2024-04-02
  • hadoop集群启动jps查看
    在Hadoop集群中,可以使用jps命令来查看集群中各个节点的进程状态。要启动Hadoop集群,并通过jps命令查看进程状态,可以按...
    99+
    2023-10-11
    hadoop
  • Hadoop集群安装和搭建
    Hadoop集群的安装和搭建通常分为以下几个步骤:1. 硬件准备:选购适合的服务器硬件,并确保网络连接良好。2. 操作系统准备:选择...
    99+
    2023-10-11
    hadoop
  • linux怎么安装hadoop集群
    要在Linux上安装Hadoop集群,您可以按照以下步骤进行操作:1. 首先确保您已经安装了Java JDK。Hadoop依赖于Ja...
    99+
    2023-10-11
    linux hadoop
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作