返回顶部
首页 > 资讯 > 操作系统 >Linux中如何部署Hadoop集群
  • 413
分享到

Linux中如何部署Hadoop集群

2023-06-27 20:06:56 413人浏览 安东尼
摘要

这篇文章给大家分享的是有关linux中如何部署hadoop集群的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下

这篇文章给大家分享的是有关linux中如何部署hadoop集群的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。

Linux中如何部署Hadoop集群

一、Hadoop框架简介

Hadoop的框架最核心的设计就是:hdfsmapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

HDFS(Hadoop Distribution File System),称为Hadoop分布式文件系统,主要特点:

HDFS最小以64MB的数据块存储文件,相比其他文件系统中的4KB~32KB分块大得多。

HDFS在时延的基础上对吞吐量进行了优化,它能够高效处理了对大文件的读请求流,但不擅长对众多小文件的定位请求

HDFS对普通的“一次写入,多次读取”的工作负载进行了优化。

每个存储节点运行着一个称为Datanode的进程,它管理着相应主机上的所有数据块。这些存储节点都由一个称为NameNode的主进程来协调,该进程运行于一台独立进程上。

与磁盘阵列中设置物理冗余来处理磁盘故障或类似策略不同,HDFS使用副本来处理故障,每个由文件组成的数据块存储在集群众的多个节点,HDFS的NameNode不断监视各个DataNode发来的报告。

1、MapReduce工作原理

客户端,提交MapReduce作业;jobtracker,协调作业的运行,jobtracker是一个java应用程序,它的主类是JobTracker;tasktracker。运行作业划分后的任务,tasktracker是一个java应用程序,TaskTracker是主类。

2、Hadoop优点

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 c++

Hadoop官网:Http://hadoop.apache.org/

二、先决条件

保持Hadoop集群每个节点配置环境一致,安装java,配置ssh

实验环境:

PlatfORM:xen vm

OS: Centos 6.8

Software: hadoop-2.7.3-src.tar.gz, jdk-8u101-linux-x64.rpm

HostnameIP AddressOS versionHadoop roleNode role
linux-node1192.168.0.89CentOS 6.8Masternamenode
linux-node2192.168.0.90CentOS 6.8Slavedatenode
linux-node3192.168.0.91CentOS 6.8Slavedatenode
linux-node4192.168.0.92CentOS 6.8Slavedatenode

#把需要的软件包下载下来上传到集群的各个节点上

三、集群的构架和安装

1、Hosts文件设置

#Hadoop集群中的每个节点的hosts文件都需要修改

[root@linux-node1 ~]# cat /etc/hosts127.0.0.1   localhost localhost.localdomain linux-node1192.168.0.89 linux-node1192.168.0.90 linux-node2192.168.0.91 linux-node3192.168.0.92 linux-node4

2、安装java

#提前把下载好的JDK(rpm包)上传到服务器上,然后安装

rpm -ivh jdk-8u101-linux-x64.rpmexport JAVA_HOME=/usr/java/jdk1.8.0_101/export PATH=$JAVA_HOME/bin:$PATH# java -versionjava version "1.8.0_101"Java(TM) SE Runtime Environment (build 1.8.0_101-b13)Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode)

3、安装hadoop

#创建hadoop用户,设置使用sudo

[root@linux-node1 ~]# useradd hadoop && echo hadoop | passwd --stdin hadoop[root@linux-node1 ~]# echo "hadoopALL=(ALL) NOPASSWD:ALL" >> /etc/sudoers[root@linux-node1 ~]# su - hadoop[hadoop@linux-node1 ~]$ cd /usr/local/src/[hadoop@linux-node1src]$wget http://apache.fayea.com/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz[hadoop@linux-node1 src]$ sudo tar zxvf hadoop-2.7.3.tar.gz -C /home/hadoop/ && cd /home/hadoop[hadoop@linux-node1 home/hadoop]$ sudo mv hadoop-2.7.3/ hadoop[hadoop@linux-node1 home/hadoop]$ sudo chown -R hadoop:hadoop hadoop/

#将hadoop的二进制目录添加到PATH变量,并设置HADOOP_HOME环境变量

[hadoop@linux-node1 home/hadoop]$ export HADOOP_HOME=/home/hadoop/hadoop/[hadoop@linux-node1 home/hadoop]$ export PATH=$HADOOP_HOME/bin:$PATH

4、创建hadoop相关目录

[hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/dfs/{name,data}[hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/tmp

#节点存储数据备份目录

sudo mkdir -p /data/hdfs/{name,data}sudo chown -R hadoop:hadoop /data/

#上述操作需在hadoop集群的每个节点都操作

5、SSH配置

#设置集群主节点免密码登陆其他节点

[hadoop@linux-node1 ~]$ ssh-keygen -t rsa[hadoop@linux-node1 ~]$ ssh-copy-id linux-node1@192.168.0.90[hadoop@linux-node1 ~]$ ssh-copy-id linux-node2@192.168.0.91[hadoop@linux-node1 ~]$ ssh-copy-id linux-node3@192.168.0.92
Linux中如何部署Hadoop集群
实战CentOS系统部署Hadoop集群服务实战CentOS系统部署Hadoop集群服务

#测试ssh登录 Linux中如何部署Hadoop集群

6、修改hadoop的配置文件

文件位置:/home/hadoop/hadoop/etc/hadoop,文件名称:hadoop-env.sh、yarn-evn.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、 yarn-site.xml

(1)配置hadoop-env.sh文件

#在hadoop安装路径下,进入hadoop/etc/hadoop/目录并编辑hadoop-env.sh,修改JAVA_HOME为JAVA的安装路径

[hadoop@linux-node1 home/hadoop]$ cd hadoop/etc/hadoop/[hadoop@linux-node1 hadoop]$ egrep JAVA_HOME hadoop-env.sh# The only required environment variable is JAVA_HOME.  All others are# set JAVA_HOME in this file, so that it is correctly defined on#export JAVA_HOME=${JAVA_HOME}export JAVA_HOME=/usr/java/jdk1.8.0_101/

(2)配置yarn.sh文件

指定yran框架的java运行环境,该文件是yarn框架运行环境的配置文件,需要修改JAVA_HOME的位置。

[hadoop@linux-node1 hadoop]$ grep JAVA_HOME yarn-env.sh# export JAVA_HOME=/home/y/libexec/jdk1.6.0/export JAVA_HOME=/usr/java/jdk1.8.0_101/

(3)配置slaves文件

指定DataNode数据存储服务器,将所有的DataNode的机器的主机名写入到此文件中,如下:

[hadoop@linux-node1 hadoop]$ cat slaveslinux-node2linux-node3linux-node4

Hadoop 3种运行模式

本地独立模式:Hadoop的所有组件,如NameNode,DataNode,Jobtracker,Tasktracker都运行在一个java进程中。

伪分布式模式:Hadoop的各个组件都拥有一个单独的Java虚拟机,它们之间通过网络套接字通信。

完全分布式模式:Hadoop分布在多台主机上,不同的组件根据工作性质的不同安装在不通的Guest上。

#配置完全分布式模式

(4)修改core-site.xml文件,添加红色区域的代码,注意蓝色标注的内容

fs.default.namehdfs://linux-node1:9000io.file.buffer.size131072hadoop.tmp.dirfile:/home/hadoop/tmpAbase for other temporary directories.

(5)修改hdfs-site.xml文件

dfs.namenode.secondary.http-addresslinux-node1:9001# 通过WEB界面来查看HDFS状态 dfs.namenode.name.dirfile:/home/hadoop/dfs/namedfs.datanode.data.dirfile:/home/hadoop/dfs/datadfs.replication2# 每个Block有2个备份dfs.webhdfs.enabledtrue

(6)修改mapred-site.xml

这个是mapreduce任务的配置,由于hadoop2.x使用了yarn框架,所以要实现分布式部署,必须在mapreduce.framework.name属性下配置为yarn。mapred.map.tasks和mapred.reduce.tasks分别为map和reduce的任务数。

[hadoop@linux-node1 hadoop]$ cp mapred-site.xml.template mapred-site.xmlmapreduce.framework.nameyarnmapreduce.jobhistory.addresslinux-node1:10020mapreduce.jobhistory.webapp.addresslinux-node1:19888

(7)配置节点yarn-site.xml

#该文件为yarn架构的相关配置

<?xml  version="1.0"?>mapred.child.java.opts-Xmx400mjobs can include JVM debuggung options --><?xml  version="1.0"?>yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce.shuffle.classorg.apache.hadoop.mapred.ShuffleHandleryarn.resourcemanager.addresslinux-node1:8032yarn.resourcemanager.scheduler.addresslinux-node1:8030yarn.resourcemanager.resource-tracker.addresslinux-node1:8031yarn.resourcemanager.admin.addresslinux-node1:8033yarn.resourcemanager.webapp.addresslinux-node1:8088yarn.nodemanager.resource.memory-mb8192

7、复制hadoop到其他节点

scp -r /home/hadoop/hadoop/ 192.168.0.90:/home/hadoop/scp -r /home/hadoop/hadoop/ 192.168.0.91:/home/hadoop/scp -r /home/hadoop/hadoop/ 192.168.0.92:/home/hadoop/

8、在linux-node1使用hadoop用户初始化NameNode

/home/hadoop/hadoop/bin/hdfs namenode &ndash;format
Linux中如何部署Hadoop集群
实战CentOS系统部署Hadoop集群服务实战CentOS系统部署Hadoop集群服务
#echo $?#sudo yum &ndash;y install tree# tree /home/hadoop/dfs
Linux中如何部署Hadoop集群
实战CentOS系统部署Hadoop集群服务实战CentOS系统部署Hadoop集群服务

9、启动hadoop

/home/hadoop/hadoop/sbin/start-dfs.sh/home/hadoop/hadoop/sbin/stop-dfs.sh
Linux中如何部署Hadoop集群
实战CentOS系统部署Hadoop集群服务实战CentOS系统部署Hadoop集群服务

#namenode节点上面查看进程

ps aux | grep --color namenode
Linux中如何部署Hadoop集群
实战CentOS系统部署Hadoop集群服务实战CentOS系统部署Hadoop集群服务

#DataNode上面查看进程

ps aux | grep --color datanode

Linux中如何部署Hadoop集群Linux中如何部署Hadoop集群Linux中如何部署Hadoop集群

10、启动yarn分布式计算框架

[hadoop@linux-node1 .ssh]$ /home/hadoop/hadoop/sbin/start-yarn.sh starting yarn daemons

Linux中如何部署Hadoop集群 #NameNode节点上查看进程 Linux中如何部署Hadoop集群

ps aux | grep --color resourcemanager

#DataNode节点上查看进程 Linux中如何部署Hadoop集群

ps aux | grep --color nodemanager

注:start-dfs.sh和start-yarn.sh这两个脚本可用start-all.sh代替

/home/hadoop/hadoop/sbin/stop-all.sh/home/hadoop/hadoop/sbin/start-all.sh
Linux中如何部署Hadoop集群
实战CentOS系统部署Hadoop集群服务实战CentOS系统部署Hadoop集群服务

11、启动jobhistory服务,查看mapreduce状态

#在NameNode节点上

[hadoop@linux-node1 ~]$ /home/hadoop/hadoop/sbin/mr-jobhistory-daemon.sh start historyserverstarting historyserver, logging to /home/hadoop/hadoop/logs/mapred-hadoop-historyserver-linux-node1.out

12、查看HDFS分布式文件系统状态

/home/hadoop/hadoop/bin/hdfs dfsadmin &ndash;report
Linux中如何部署Hadoop集群
实战CentOS系统部署Hadoop集群服务实战CentOS系统部署Hadoop集群服务

#查看文件块组成,一个文件由那些块组成

/home/hadoop/hadoop/bin/hdfs fsck / -files -blocks
Linux中如何部署Hadoop集群
实战CentOS系统部署Hadoop集群服务实战CentOS系统部署Hadoop集群服务

13、web页面查看hadoop集群状态

查看HDFS状态:http://192.168.0.89:50070/ Linux中如何部署Hadoop集群Linux中如何部署Hadoop集群查看Hadoop集群状态:http://192.168.0.89:8088/ Linux中如何部署Hadoop集群

感谢各位的阅读!关于“Linux中如何部署Hadoop集群”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

--结束END--

本文标题: Linux中如何部署Hadoop集群

本文链接: https://lsjlt.com/news/313722.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Linux中如何部署Hadoop集群
    这篇文章给大家分享的是有关Linux中如何部署Hadoop集群的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下...
    99+
    2023-06-27
  • Linux系统如何部署Hadoop集群
    这篇文章将为大家详细讲解有关Linux系统如何部署Hadoop集群,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。Hadoop简介:Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个...
    99+
    2023-06-28
  • 怎么部署Hadoop集群
    本篇内容主要讲解“怎么部署Hadoop集群”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么部署Hadoop集群”吧!环境准备一共用5台机器作为硬件环境,全都是...
    99+
    2024-04-02
  • ambari中怎么部署hadoop集群
    在Ambari中部署Hadoop集群通常需要按照以下步骤进行操作: 登录到Ambari的Web界面,并创建一个新的集群。 在创建集...
    99+
    2024-03-14
    hadoop ambari
  • Hadoop集群部署最佳实践
    在部署Hadoop集群时,以下是一些最佳实践: 使用自动化工具:使用自动化工具如Ansible、Chef或Puppet来部署Ha...
    99+
    2024-02-29
    Hadoop
  • php中什么是集群部署?如何实现集群部署?
    随着互联网进入快速发展的时代,各种网站、应用如雨后春笋般出现,人们对于服务的需求越来越高。而随着用户量增加,单一服务器已经无法满足需求,集群部署PHP项目成为解决方案之一。一、什么是集群部署?集群部署是将多台服务器组合在一起,按照特定的方式...
    99+
    2023-05-14
    集群部署 php
  • Linux系统如何部署zookeeper集群
    这篇文章给大家分享的是有关Linux系统如何部署zookeeper集群的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。zookeeper简介:Zookeeper是一个开源的分布式协调服务,Zookeeper的设计目...
    99+
    2023-06-28
  • kubeadm中如何部署kubernetes集群
    kubeadm中如何部署kubernetes集群,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。一、环境要求这里使用RHEL7.5master、etcd:192.168.10.1...
    99+
    2023-06-19
  • docker中如何部署mysql集群
    在Docker中部署MySQL集群可以使用Docker Compose来管理多个MySQL容器,并使用MySQL Router来实现...
    99+
    2024-04-09
    docker mysql
  • k8s中如何部署redis集群
    在Kubernetes中部署Redis集群通常可以通过以下步骤进行: 创建Redis的ConfigMap:在Kubernetes中...
    99+
    2024-04-09
    redis
  • k8s中如何部署mysql集群
    在Kubernetes中部署MySQL集群可以使用StatefulSet和PersistentVolume。以下是一个简单的步骤: ...
    99+
    2024-04-02
  • 如何部署Spark集群
    今天就跟大家聊聊有关如何部署Spark集群,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1. 安装环境简介硬件环境:两台四核cpu、4G内存、500...
    99+
    2024-04-02
  • redis如何部署集群
    这篇文章主要介绍“redis如何部署集群”,在日常操作中,相信很多人在redis如何部署集群问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”redis如何部署集群”的疑惑有所帮...
    99+
    2024-04-02
  • 大数据Hadoop之——Spark集群部署(Standalone)
    目录一、Spark概述二、Spark的运行模式1)Standalone(本章讲解)2)Mesos3)YARN(推荐)4)K8S(新模式)三、Standalone 模式运行机制1)Standalone Client 模式2)Standalo...
    99+
    2020-01-26
    大数据Hadoop之——Spark集群部署(Standalone)
  • Hadoop集群环境部署的示例分析
    这篇文章主要介绍了Hadoop集群环境部署的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。为集群自定义一个名称:在安装集群组建之前安装程序需要对主机进行一些环境检查工...
    99+
    2023-06-02
  • docker如何部署kafka集群
    要部署Kafka集群,可以使用Docker来简化整个过程。下面是一个基本的步骤:1. 安装Docker和Docker Compose...
    99+
    2023-10-08
    kafka docker
  • k8s如何部署redis集群
    这篇文章主要讲解了“k8s如何部署redis集群”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“k8s如何部署redis集群”吧!redis集群搭建1.1使用redis-cli创建集群#&nb...
    99+
    2023-07-05
  • docker如何部署etcd集群
    目录创建etcd数据目录创建docker网络etcd-cluster-compose.yml启动并验证集群启动验证集群k/v操作CURLetcdctl总结需要安装: dockerdo...
    99+
    2023-03-19
    docker部署etcd集群 docker部署 docker etcd集群
  • Linux下的FineBI集群部署
    本篇内容介绍了“Linux下的FineBI集群部署”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!在企业应用中,通常单个计算机的配置是有限的,...
    99+
    2023-06-04
  • Cloud Toolkit 中如何部署 EDAS Kubernetes 集群
    这期内容当中小编将会给大家带来有关Cloud Toolkit 中如何部署 EDAS Kubernetes 集群,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。在 IntelliJ IDEA 上单击 Clou...
    99+
    2023-06-19
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作