首页 > 资讯 > 数据库 >4.RDD操作

569

分享到

4.RDD操作

4.RDD操作 2017-07-29 02:07:18 569人浏览猪猪侠

摘要

目录一、 RDD创建从本地文件系统中加载数据创建RDD从hdfs加载数据创建RDD通过并行集合（列表）创建RDD二、 RDD操作转换操作filter(func)map(func)flatMap(func)reduceByKey()grou

4.RDD操作

一、 RDD创建
- 从本地文件系统中加载数据创建RDD
- 从hdfs加载数据创建RDD
- 通过并行集合（列表）创建RDD
二、 RDD操作
- 转换操作
  - filter(func)
  - map(func)
  - flatMap(func)
  - reduceByKey()
  - groupByKey()
  - sortByKey()
  - sortBy()
- 行动操作
  - foreach(func)
  - collect()
  - count()
  - take(n)
  - reduce()

一、 RDD创建

从本地文件系统中加载数据创建RDD

sc：sparkContext（shell自动创建）
本地文件系统中加载数据创建RDD

Spark采用textFile()方法来从文件系统中加载数据创建RDD
该方法把文件的URI作为参数，这个URI可以是：
- 本地文件系统的地址
- 或者是分布式文件系统HDFS的地址
- 或者是Amazon S3的地址等等

从HDFS加载数据创建RDD

启动hdfs
上传文件
查看文件
spark内加载文件

textFile默认是读hdfs，所以hdfs可以省略。

hdfs的默认目录，前三条语句是完全等价的，可以使用其中任意一种方式

不是默认目录，要还上路径
停止hdfs

通过并行集合（列表）创建RDD

输入列表、字符串、numpy生成数组

二、 RDD操作

转换操作

对于RDD而言，每一次转换操作都会产生新的RDD，供给下一个“转换”使用

转换得到的RDD是惰性求值的，也就是说，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作

操作	含义
filter(func)	筛选出满足函数func的元素，并返回一个新的数据集
map(func)	将每个元素传递到函数func中，并将结果返回为一个新的数据集
flatMap(func)	与map()相似，但每个输入元素都可以映射到0或多个输出结果
groupByKey()	应用于(K,V)键值对的数据集时，返回一个新的(K, Iterable)形式的数据集
reduceByKey(func)	应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中每个值是将每个key传递到函数func中进行聚合后的结果

filter(func)

显式定义函数

结果不明显，换个关键词
lambda函数

map(func)

字符串分词
- 显式定义函数
- lambda函数
数字加100
- 显式定义函数
- lambda函数
字符串加固定前缀
- 显式定义函数
- lambda函数

flatMap(func)

分词
单词映射成键值对

reduceByKey()

统计词频，累加
乘法规则

groupByKey()

单词分组
查看分组的内容
分组之后做累加 map

sortByKey()

词频统计按单词排序

sortBy()

词频统计按词频排序

行动操作

行动操作是真正触发计算的地方。Spark程序执行到行动操作时，才会执行真正的计算，从文件中加载数据，完成一次又一次转换操作，最终，完成行动操作得到结果。

操作	含义
count()	返回数据集中的元素个数
collect()	以数组的形式返回数据集中的所有元素
first()	返回数据集中的第一个元素
take(n)	以数组的形式返回数据集中的前n个元素
foreach(func)	将数据集中的每个元素传递到函数func中运行
reduce(func)	通过函数func(输入两个参数并返回一个值)聚合数据集中的元素

foreach(func)

foreach(print)
foreach(lambda a:print(a.upper())

collect()

count()

take(n)

reduce()

数值型的rdd元素做累加
与reduceByKey区别

reduceByKey(func)应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中的每个值是将每个key传递到函数func中进行聚合后得到的结果

原文地址：https://www.cnblogs.com/DingyLand/arcHive/2022/03/30/homework_04_.html

您可能感兴趣的文档:

--结束END--

本文标题: 4.RDD操作

本文链接: https://lsjlt.com/news/9216.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

4.RDD操作

目录一、 RDD创建从本地文件系统中加载数据创建RDD从HDFS加载数据创建RDD通过并行集合（列表）创建RDD二、 RDD操作转换操作filter(func)map(func)flatMap(func)reduceByKey()grou...

99+

2017-07-29

4.RDD操作
RDD的详解、创建及其操作

RDD的详解 RDD:弹性分布式数据集,是Spark中最基本的数据抽象,用来表示分布式集合,支持分布式操作! RDD的创建 RDD中的数据可以来源于2个地方：本地集合或外部数据源 RDD操作分类转换算子 Map import...

99+

2020-12-27

RDD的详解创建及其操作
如何将RDD或者MLLib矩阵进行转置操作

如何将RDD或者MLLib矩阵进行转置操作，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。如何将Spark Mllib的矩阵或者将一个RDD进行转置操作。Spar...

99+

2023-06-19
Go操作ES-4(query查询)

在Go中操作Elasticsearch进行查询，需要使用Elasticsearch的官方Go客户端库。以下是一个简单的示例，演示如何...

99+

2023-09-21

Go
4.Python操作Redis：哈希(H

Redis 数据库hash数据类型是一个string类型的key和value的映射表，适用于存储对象。Redis 中每个 hash 可以存储 232 - 1 键值对（40多亿）。 Python的redis模块实现了Redis哈...

99+

2023-01-31

操作 Python Redis
【Python】PySpark 数据计算 ③ ( RDD#reduceByKey 函数概念 | RDD#reduceByKey 方法工作流程 | RDD#reduceByKey 语法 | 代码示例 )

文章目录一、RDD#reduceByKey 方法1、RDD#reduceByKey 方法概念2、RDD#reduceByKey 方法工作流程3、RDD#reduceByKey 函数语法 ...

99+

2023-08-31

python Spark PySpark PyCharm reduceByKey 原力计划
【Python实践-4】切片操作去除字符

1 #利用切片操作，实现一个trim()函数，去除字符串首尾的空格，注意不要调用str的strip()方法 2 def trim(s): 3 while s[0:1]==' ': 4 ...

99+

2023-01-31

切片字符操作
如何解析Fedora Core 4操作技术含量

这期内容当中小编将会给大家带来有关如何解析Fedora Core 4操作技术含量，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。由于本人思维固化，对新事物接受不足，所以在学习Fedora Core 4 总是...

99+

2023-06-16
Pandas对数值进行分箱操作的4种方法总结

目录前言1、between & loc2、cut3、qcut4、value_counts前言使用 Pandas 的between 、cut、qcut 和 value_cou...

99+

2024-04-02
通过90行代码学会HTML5 WebSQL的4种基本操作

Web SQL数据库API是一个独立的规范，在浏览器层面提供了本地对结构化数据的存储，已经被很多现代浏览器支持了。我们通过一个简单的例子来了解下如何使用Web SQL API在浏览器端创建数据库表并存储数据。<!doctype&nbs...

99+

2023-06-05
python(实操4)：录音文件的读取、

#!/usr/bin/python # encoding:utf-8 # Filename : processAudio.py # author by :morespeech # python2.7 # platform:visual s...

99+

2023-01-31

文件 python
Android开发中4个常用的工具类【Toast、SharedPreferences、网络及屏幕操作】

本文实例讲述了Android开发中4个常用的工具类。分享给大家供大家参考，具体如下：1、土司工具类（Toast管理）public class ToastUtil { private ToastUtil() { throw n...

99+

2023-05-30

android 工具类 toast
【基础操作】1.表操作

-- 1.基本表操作表 drop table user1; create table user1( id &nb...

99+

2024-04-02
怎样操作C++操作符

本篇文章给大家分享的是有关怎样操作C++操作符，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。C++中指令系统的每一条指令都有一个C++操作符，它表示该指令应进行什么性质的操作，...

99+

2023-06-17
Python操作SQLLite（基本操作

SQLite 是一个软件库，实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是在世界上最广泛部署的 SQL 数据库引擎。SQLite 源代码不受版权限制。 Python SQLITE数据库是一款非常...

99+

2023-01-31

操作 Python SQLLite
laravel操作redis和缓存操作

一：操作redis 1：redis拓展安装 composer require predis/predis 或者你也可以通过 PECL 安装 PhpRedis PHP 扩展,安装方法比较复杂,个人不推荐 2：配置redis 在con...

99+

2023-09-04

laravel php redis 缓存 Powered by 金山文档
文件操作的艺术：操作系统中的高效操作

1. 理解文件结构文件是操作系统中存储和组织数据的基本单元。它们由文件头、文件内容和文件尾组成。文件头包含有关文件及其内容的信息，例如文件类型、大小和创建日期。文件内容是实际数据，而文件尾标识文件结束。 2. 文件操作命令每个操作系...

99+

2024-02-29

文件操作、操作系统、命令行、Python、文件权限
Oracle学习(七) --- MyBatis操作、JDBC操作

1、MyBatis操作 1.1、环境搭建步骤一：创建项目 test_oracle 步骤二：修改pom.xml文件(MyBatis相关依赖、Oracle驱动、测试依赖) changgou3_paren...

99+

2017-02-22

Oracle学习(七) --- MyBatis操作 JDBC操作
MongoDB操作

#=========2、mongo===================================#备份数据库mongodump -h 127.0.0.1 -d eb_mongo -o /root/x...

99+

2024-04-02
JDBC操作

一.JDBC：Java Database Connection 表示数据库连接，是Java中专门提供的一组用于操作数据库的标准，所有的数据库生产商如果想为Java提供支持，则必须支持此标准。JDBC实际上是...

99+

2024-04-02