返回顶部
首页 > 资讯 > 精选 >Spark RDD的内容有哪些
  • 263
分享到

Spark RDD的内容有哪些

2023-06-02 12:06:56 263人浏览 薄情痞子
摘要

这篇文章将为大家详细讲解有关spark RDD的内容有哪些,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。一.添加jar包运行1.官网位置点击步骤:Spark Programming

这篇文章将为大家详细讲解有关spark RDD的内容有哪些,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

一.添加jar包运行

1.官网位置

点击步骤:Spark Programming GuideLinking with Spark版本要对应和集群

Spark RDD的内容有哪些

2.idea 引入cdh可能报红线

Spark RDD的内容有哪些

3.原因

idea 引入cdh版的hadoop等包可能报红线,因为默认idea引的仓库是apache的所以有红线

4.解决:

Spark RDD的内容有哪些

5.上传本地文件

公司中是用rzftp工具不用因为中间有跳板机,ftp不好用

二.提交程序到集群

1.官网案例

Spark RDD的内容有哪些

2.测试代码

 spark-submit \  --class test.Demo2 \  --master local[2] \  /demo/original-sparkrdd-1.0-SNAPSHOT.jar \  hdfs://s202:9000/input/*   \  hdfs://s202:9000/result

3../spark-submit —help  查看帮助

4.MR也可以基于内存但是是有限的,有局限性

Spark RDD的内容有哪些

三.SparkRDD

1.RDD

弹性分布式数据集弹性体现在计算上,分布式的时候计算可以容错,通过机制进行修复,准确是体现在计算层面上

2.RDD五大特点

*  - A list of partitions*  - A function for computing each split每个函数作用每个分区上对RDD计算就是对分区进行计算split 如分区partitions*  - A list of dependencies on other RDDsRDDA 是加载其余是转化的RDDA-RDDB-RDDC*  - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)优化时候用的多*  - Optionally, a list of preferred locations to compute each split on (e.g. block locations for*    an HDFS file)preferred locations(类似多个副本)  数组在哪在那计算性能好,不用移动数据对每个分片计算会有一组计算每个分片会有多个副本窄依赖容错不是对所有分区进行重新计算,对父类,宽依赖不通Resilient Distributed Dataset (RDD)在上面五个特点完美体现切分,副本,计算,分布式

3.RDD五大特点和源码中的对应关系

关键计算传什么参数,对应第二个特点,必须传个分片的def compute(split: Partition, context: TaskContext): Iterator[T]对应RDD第一点protected def getPartitions: Array[Partition]对应第三点protected def getDependencies: Seq[Dependency[_]] = deps计算必须拿到PreferredLocations 在什么位置第五点protected def getPreferredLocations(split: Partition): Seq[String] = Nil对应第四点@transient val partitioner: Option[Partitioner] = None类似于JdbcRDD什么都要继承RDD

4.RDD宏观概念

Spark RDD的内容有哪些

三.RDD的操作

1.官网

Spark RDD的内容有哪些

2.重点解释不要硬编码

Spark RDD的内容有哪些

3.官网解释

appName 是一个作业的名字也可以不写,不要硬编码,提交时写,用时间拼接,可以知道提交的是哪个The appName parameter is a name for your application to show on the cluster UI.master 是你连接集群的方式master is a Spark, Mesos or YARN cluster URL, or a special “local” string to run in local mode.但是,运行一个集群你不要硬编码,不要代码中设置master,提交的时候设置In practice, when running on a cluster, you will not want to hardcode master in the program, 而是要用spark-submit 提交,but rather launch the application with spark-submit and receive it there.测试就用local 就可以了However, for local testing and unit tests, you can pass “local” to run Spark in-process.

4.stop注意

Only one SparkContext may be active per JVM. You must stop() the active SparkContext before creating a new one.一个jvm只能有一个SparkContext,想要在启动别个,必须关闭stop()

5.yarn在spark需要配置的参数

在spark-env  中配置HADOOP_CONF_DIR or YARN_CONF_DIR ,指向hadoop的etc/hadoop的

Spark RDD的内容有哪些

6.spark-shell 的使用,主要用jars

spark-shell 底层也是调用spark-submit 脚本运行

Spark RDD的内容有哪些

四.RDD的创建方式

1.RDD创建一

 Typically you want 2-4 partitions for each CPU in your cluster. 不浪费因为这样设置省着cpu空闲,一个分区一个CPU可能空闲,浪费task多不处理小文件多,要合并,调优

Spark RDD的内容有哪些

2.RDD创建方式一 解释

加载外部集合用parallelize方法,用的少,最好有个CPU对应几个分区,防止空闲浪费资源,一个task一个分区

3.RDD创建二

Spark RDD的内容有哪些

4.解释

加载外部数据源,本地文件,HDFS,HBase

5.RDD注意事项笔记:官网

Spark RDD的内容有哪些

5.解释

1.如果你要使用本地文件,那你又多少个节点,每个节点都要有这个文件,否则找不到,standalone   也一样,一般用不到2.全部的输入方式包括文件,支持目录,压缩,通配符3.textFile() 有第二个参数,分区,默认有个block一个分区,你可以调的更高,不可以比block更少这个可以调优1.wholeTextFiles() 返回key,value  key是路径,value值2序列化测试3.saveAsTextFile() 保存

关于Spark RDD的内容有哪些就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

--结束END--

本文标题: Spark RDD的内容有哪些

本文链接: https://lsjlt.com/news/230162.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Spark RDD的内容有哪些
    这篇文章将为大家详细讲解有关Spark RDD的内容有哪些,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。一.添加jar包运行1.官网位置点击步骤:Spark Programming...
    99+
    2023-06-02
  • RDD的类型有哪些
    这篇文章主要讲解了“RDD的类型有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“RDD的类型有哪些”吧!一、RDD定义  RDD(Resilient Distributed Datase...
    99+
    2023-06-02
  • 创建RDD的方式有哪些
    这篇文章主要讲解了“创建RDD的方式有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“创建RDD的方式有哪些”吧!从集合中创建RDD val conf = new&nb...
    99+
    2023-06-02
  • Oracle AWR内容有哪些
    本篇内容主要讲解“Oracle AWR内容有哪些”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Oracle AWR内容有哪些”吧!1.AWR报告头信息DB Na...
    99+
    2024-04-02
  • HTML更新的内容有哪些
    HTML更新的内容有哪些,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。HTML 5.1 来了。HTML 5 诞生多年以来,受到...
    99+
    2024-04-02
  • CSS的表单内容有哪些
    这篇“CSS的表单内容有哪些”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“CSS的表单内容有哪些”文章吧。1. 表单框类型&...
    99+
    2023-06-28
  • Python的知识内容有哪些
    本篇内容主要讲解“Python的知识内容有哪些”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python的知识内容有哪些”吧!省略号也是对象在Python中,一切皆对象,...也不例外。在Pyt...
    99+
    2023-06-02
  • win1019033更新的内容有哪些
    今天小编给大家分享一下win1019033更新的内容有哪些的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。win1019033...
    99+
    2023-07-02
  • python spark的特点有哪些
    Python Spark的特点有以下几个:1. 高效性:Python Spark使用内存计算技术,能够在大数据处理过程中提供高速的计...
    99+
    2023-10-23
    python
  • Spark SQL的用途有哪些
    Spark SQL是一个用于在Spark平台上进行结构化数据处理的模块,它具有以下用途: 查询和分析结构化数据:Spark SQ...
    99+
    2024-04-09
    Spark
  • html基础内容有哪些
    小编给大家分享一下html基础内容有哪些,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!   段落是通过 <p> 标...
    99+
    2024-04-02
  • Css基础内容有哪些
    这篇“Css基础内容有哪些”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Css基础内容有哪...
    99+
    2024-04-02
  • linux中inode有哪些内容
    linux中inode有哪些内容,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。一、inode是什么?文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(S...
    99+
    2023-06-05
  • ScoreGroup对象内容有哪些
    这篇文章主要介绍“ScoreGroup对象内容有哪些”,在日常操作中,相信很多人在ScoreGroup对象内容有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”ScoreGroup对象内容有哪些”的疑惑有所...
    99+
    2023-06-26
  • Python主要内容有哪些
    这篇文章主要介绍“Python主要内容有哪些”,在日常操作中,相信很多人在Python主要内容有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python主要内容有哪些”的疑惑有所帮助!接下来,请跟着小编...
    99+
    2023-06-02
  • spark-submit的有用选项有哪些
    这篇文章将为大家详细讲解有关spark-submit的有用选项有哪些,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。我们使用spark-submit时,必然要处理我们自己的配置文件、普通文件、...
    99+
    2023-06-19
  • .NET Framework版本的内容有哪些
    今天就跟大家聊聊有关.NET Framework版本的内容有哪些,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。技术革新换代的速度已经达到了一个非常快速的时代。作为开发人员来说这无疑是...
    99+
    2023-06-17
  • windows KB4499162更新的内容有哪些
    本篇内容介绍了“windows KB4499162更新的内容有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!KB4499162更新内容有...
    99+
    2023-07-01
  • Spark的知识点有哪些呢
    这篇文章给大家介绍Spark的知识点有哪些呢,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。  Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受...
    99+
    2023-06-02
  • Spark的相关问题有哪些
    这篇文章主要介绍“Spark的相关问题有哪些”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Spark的相关问题有哪些”文章能帮助大家解决问题。1、Spark的核心是什么  RDD是Spark的基本抽...
    99+
    2023-06-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作