返回顶部
首页 > 资讯 > 数据库 >Spark的安装及其配置
  • 318
分享到

Spark的安装及其配置

Spark的安装及其配置 2018-09-29 15:09:34 318人浏览 猪猪侠
摘要

1.spark下载 https://arcHive.apache.org/dist/spark/   2.上传解压,配置环境变量 配置bin目录 解压:tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C

Spark的安装及其配置

1.spark下载

https://arcHive.apache.org/dist/spark/

 

2.上传解压,配置环境变量 配置bin目录

解压:tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft/

改名:mv spark-2.4.5-bin-hadoop2.7/ spark-2.4.5

配置环境变量:vim /etc/profile

添加环境变量:

export SPARK_HOME=/usr/local/soft/spark-2.4.5
export PATH=$PATH:$SPARK_HOME/bin

保存配置:source /etc/profile

 

3.修改配置文件 conf

修改spark-env.sh: cp spark-env.sh.template spark-env.sh

增加配置:

export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077

export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=2g
export JAVA_HOME=/usr/local/soft/jdk1.8.0_171

 

修改:cp slaves.template slaves

 

增加:

node1

node2

 

4.发放到其他节点

xsync spark-2.4.5

(xsync是自己写的脚本,在安装Hadoop的时候写过)

 

4、在主节点执行启动命令
启动集群,在master中执行
./sbin/start-all.sh

 

 

 Http://master:8080/  访问spark ui

 

 

 5.检验安装的Spark

1. standalone client模式 日志在本地输出,一班用于上线前测试(bin/下执行)

需要进入到spark-examples_2.11-2.4.5.jar 包所在的目录下执行
cd /usr/local/soft/spark-2.4.5/examples/jars

spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100


2. standalone cluster模式 上线使用,不会再本地打印日志
spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --driver-memory 512m --deploy-mode cluster --supervise --executor-memory 512M --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100

spark-shell spark 提供的一个交互式的命令行,可以直接写代码

spark-shell master spark://master:7077

 

6.整合yarn

在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架

停止spark集群
在spark sbin目录下执行 ./stop-all.sh

spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark 文件

1、增加hadoop 配置文件地址

vim spark-env.sh
增加
export HADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.6/etc/hadoop

 

 

2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-2.7.6/etc/hadoop/yarn-site.xml)

先关闭yarn
stop-yarn.sh


yarn.nodemanager.pmem-check-enabled
false


yarn.nodemanager.vmem-check-enabled
false

 

4、同步到其他节点,重启yarn
scp -r yarn-site.xml node1:`pwd`
scp -r yarn-site.xml node2:`pwd`


启动yarn
start-yarn.sh


cd /usr/local/soft/spark-2.4.5/examples/jars

3.spark on yarn client模式 日志在本地输出,一班用于上线前测试
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 512M --num-executors 2 spark-examples_2.11-2.4.5.jar 100


4.spark on yarn cluster模式 上线使用,不会再本地打印日志 减少io
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 512m --num-executors 2 --executor-cores 1 spark-examples_2.11-2.4.5.jar 100

获取yarn程序执行日志 执行成功之后才能获取到
yarn logs -applicationId application_1560967444524_0003

 

hdfs WEBui
http://node1:50070

yarn ui
http://node1:8088

 

idea中使用spark做WordCount

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Demo1WordCount {
  def main(args: Array[String]): Unit = {

    // Spark配置文件对象
    val conf: SparkConf = new SparkConf()
    // 设置Spark程序的名字
    conf.setAppName("Demo1WordCount")
    // 设置运行模式为local模式 即在idea本地运行
    conf.setMaster("local")

    // Spark的上下文环境,相当于Spark的入口
    val sc: SparkContext = new SparkContext(conf)

    // 词频统计
    // 1、读取文件
    
    val linesRDD: RDD[String] = sc.textFile("spark/data/words")

    // 2、将每一行的单词切分出来
    // flatMap: 在Spark中称为 算子
    // 算子一般情况下都会返回另外一个新的RDD
    val wordsRDD: RDD[String] = linesRDD.flatMap(line => line.split(","))

    // 3、按照单词分组
    val groupRDD: RDD[(String, Iterable[String])] = wordsRDD.groupBy(word => word)

    // 4、统计每个单词的数量
    val countRDD: RDD[String] = groupRDD.map(kv => {
      val word: String = kv._1
      val words: Iterable[String] = kv._2
      // words.size直接获取迭代器的大小
      // 因为相同分组的所有的单词都会到迭代器中
      // 所以迭代器的大小就是单词的数量
      word + "," + words.size
    })

    // 5、将结果进行保存
    countRDD.saveAsTextFile("spark/data/wordCount")

  }

}

  

 

您可能感兴趣的文档:

--结束END--

本文标题: Spark的安装及其配置

本文链接: https://lsjlt.com/news/8895.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Spark的安装及其配置
    1.Spark下载 https://archive.apache.org/dist/spark/   2.上传解压,配置环境变量 配置bin目录 解压:tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C...
    99+
    2018-09-29
    Spark的安装及其配置
  • 怎么安装Ubuntu nginx以及其配置安装Php和mysql
    本篇内容主要讲解“怎么安装Ubuntu nginx以及其配置安装Php和mysql”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么安装Ubuntu nginx以及其配置安装Php和mysql”...
    99+
    2023-06-16
  • 怎么用pycharm安装pyqt5及其相关配置
    本篇内容介绍了“怎么用pycharm安装pyqt5及其相关配置”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!一、配置专门的虚拟环境原因:不同...
    99+
    2023-06-30
  • JDK17安装教程及其环境变量配置
    Windows下载和安装JDK,以及配置JDK环境变量 一、下载和安装 1.官网下载链接:JAVA Downloads|Oracle,然后安装JDK,安装过程中可以自定义安装目录等信息,例如我们选择安装目录为 D:\Program File...
    99+
    2023-09-13
    java windows jvm
  • JDK1.8安装教程及其环境变量配置
    最近在使用Tomcat需要配置jdk,但以前安装的jdk17因为版本过高,出现不兼容,因此安装了jdk1.8,现在我来记录一下Windows下JDK1.8下载和配置环境变量的过程。 一、下载和安装 1.官网下载链接:https://www....
    99+
    2023-10-21
    java jvm windows
  • centOS7下Spark安装配置教程详解
    环境说明:         操作系统: centos7 64位 3台       &nbs...
    99+
    2022-06-04
    spark 安装配置 centos7 spark
  • git安装及配置
    文章目录 Git的环境配置一、安装git二、注册GitHub账户三、配置git1.检查安装2.配置信息3.生成 SSH4.添加到GitHub管理平台5.检查是否配置成功6.多平台多账户使用Gi...
    99+
    2023-09-21
    git github
  • Maven安装及配置
    1.下载 Maven – Download Apache Maven 2.安装 maven压缩包解压到一个没有中文,空格或其他特殊字符的文件夹内即可使用。 3.配置环境变量 1.右键此电脑->属性...
    99+
    2023-10-04
    maven java
  • idea2023.3安装及配置
    idea2023.3安装及配置 一.安装idea 1.卸载旧版本idea 2.下载idea旗舰版 Download IntelliJ IDEA: The Capable & Ergonomic Java IDE by JetBrains ...
    99+
    2023-08-31
    intellij-idea java idea
  • varnish3安装及配置
    1.varnish安装 下载varnish软件  (此处下载3.0.2版本)   #wget   http://repo.varnish-cache.org/source/varnish-3.0.2.tar.gz#tar -xvf...
    99+
    2023-01-31
  • 教你如何用pycharm安装pyqt5及其相关配置
    目录一、配置专门的虚拟环境1、单独创建一个文件夹来专门存放pyqt5的代码并建立虚拟环境2、进入pycharm,并打开python-pyqt5项目3、配置虚拟环境二、配置虚拟的pyt...
    99+
    2024-04-02
  • weblogic_server103.c的安装及配置
    weblogic是bea公司的产品,后来被oracle收购,weblogic是基于Javaee架构的中间件,是纯java开发的java应用服务器。WebLogic主要用于开发、集成、部署和管理大型分布式We...
    99+
    2024-04-02
  • 2、Automapper安装及配置
    一、 安装 我们安装是在 vs 中使用Nuget的方式进行安装 不过安装时需注意一件事情就是,版本问题,我示例使用的是.net framework 4.5.2,所以我安装AutoMapper的版本是7.0,如果安装失败,把版本降...
    99+
    2018-10-02
    2 Automapper安装及配置
  • MyEclipse 6.0安装及配置
    要安装和配置MyEclipse 6.0,您可以按照以下步骤操作:1. 下载MyEclipse 6.0安装文件。您可以从MyEclip...
    99+
    2023-09-12
    MyEclipse
  • Android SDK安装及配置
    Android SDK(Software Development Kit)是一个开发Android应用程序所需的开发工具包。下面是A...
    99+
    2023-09-13
    Android
  • 【Android】SDK安装及配置
    一、下载SDK Tools 地址:AndroidDevTools - Android开发工具 Android SDK下载 Android Studio下载 Gradle下载 SDK Tools下载  以windows10系统为例,下载压缩...
    99+
    2023-08-31
    android
  • 3、SQLSVR安装及配置
    安装常用软件及必要组件(如.net3.5),进行基本服务器配置,并安装vm-tools,进行初始状态快照。安装SQLSVR2012,标准操作不再冗述。安装完成后创建Vcenter数据库...
    99+
    2023-01-31
    SQLSVR
  • JMeter安装及配置-Mac
    JMeter安装及配置-Mac 本章要点 前置条件命令行安装压缩包安装 在Mac上安装对应的JMeter工具有两种方式:一种直接借助终端命令行brew进行安装;另外一种和Window电脑一样去JMeter官网下载压缩包安装。 JMeter不...
    99+
    2023-08-18
    jmeter macos java
  • Spark SQL配置及使用教程
    目录SparkSQL版本: SparkSQL DSL语法 SparkSQL和Hive的集成Spark应用依赖第三方jar包文件解决方案        SparkSQL的ThriftS...
    99+
    2024-04-02
  • Python中PySide2的安装及配置
    以前学java的时候,接触过用Swing编写GUI程序,在入职第一份工作的时候,公司的入职培训还教了我用WPF编写GUI客户端,今天,学习到了一个新的方式:那就是使用Python中的相关库进行编写GUI程序。 在py...
    99+
    2022-06-02
    Python PySide2安装 Python PySide2使用
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作