扫码关注官方微信

扫码下载APP

返回顶部

首页 > 资讯 > 后端开发 > Python >机器学习实践中如何将Spark与Python结合

725

0

分享到

机器学习实践中如何将Spark与Python结合

2023-06-02 23:06:31 725人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

本篇文章给大家分享的是有关机器学习实践中如何将spark与python结合，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。Apache Spark是处理和使用大数据最广泛的框架之

本篇文章给大家分享的是有关机器学习实践中如何将spark与python结合，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。

Apache Spark是处理和使用大数据最广泛的框架之一，Python是数据分析、机器学习等领域最广泛使用的编程语言之一。如果想要获得更棒的机器学习能力，为什么不将Spark和Python一起使用呢?

在国外，Apache Spark开发人员的平均年薪为110,000美元。毫无疑问，Spark在这个行业中被广泛使用。由于其丰富的库集，Python也被大多数数据科学家和分析专家使用。二者集成也并没有那么困难，Spark用Scala语言开发，这种语言与Java非常相似。它将程序代码编译为用于Spark大数据处理的JVM字节码。为了集成Spark和Python，Apache Spark社区发布了PySpark。

Apache Spark是Apache Software Foundation开发的用于实时处理的开源集群计算框架。Spark提供了一个接口，用于编程具有隐式数据并行和容错功能的整个集群。

　　下面是Apache Spark的一些特性，它比其他框架更具优势：

机器学习实践中如何将Spark与Python结合

　　·速度：比传统的大型数据处理框架快100倍。

　　·强大的缓存：简单的编程层提供强大的缓存和磁盘持久性功能。

　　·部署：可以通过Mesos、Yarn或Spark自己的集群管理器进行部署。

　　·实时：内存计算，实时计算且低延迟。

　　·Polyglot：这是该框架最重要的特性之一，因为它可以在Scala，Java，Python和R中编程。

　　虽然Spark是在Scala中设计的，但它的速度比Python快10倍，但只有当使用的内核数量少时，Scala才会体现出速度优势。由于现在大多数分析和处理都需要大量内核，因此Scala的性能优势并不大。

　　对于程序员来说，由于其语法和标准库丰富，Python相对来说更容易学习。而且，它是一种动态类型语言，这意味着RDD可以保存多种类型的对象。

　　尽管Scala拥有SparkMLlib，但它没有足够的库和工具来实现机器学习和NLP。此外，Scala 缺乏数据可视化。

机器学习实践中如何将Spark与Python结合

　　使用Python设置Spark(PySpark)

　　首先要下载Spark并安装，一旦你解压缩了spark文件，安装并将其添加到 .bashrc文件路径中，你需要输入source .bashrc

机器学习实践中如何将Spark与Python结合

　　要打开PySpark shell，需要输入命令./bin/pyspark

　　PySpark SparkContext和数据流

　　用Python来连接Spark，可以使用RD4s并通过库Py4j来实现。PySpark Shell将Python api链接到Spark Core并初始化Spark Context。SparkContext是Spark应用程序的核心。

　　1.Spark Context设置内部服务并建立到Spark执行环境的连接。

　　2.驱动程序中的Spark Context对象协调所有分布式进程并允许进行资源分配。

　　3.集群管理器执行程序，它们是具有逻辑的JVM进程。

　　4.Spark Context对象将应用程序发送给执行者。

　　5.Spark Context在每个执行器中执行任务。

　　PySpark KDD用例

　　现在让我们来看一个用例：数据来源为KDD'99 Cup(国际知识发现和数据挖掘工具竞赛，国内也有类似的竞赛开放数据集，比如知乎)。这里我们将取数据集的一部分，因为原始数据集太大。

机器学习实践中如何将Spark与Python结合

　　创建RDD：

　　现在我们可以使用这个文件来创建我们的RDD。

机器学习实践中如何将Spark与Python结合

　　过滤

　　假设我们要计算我们在数据集中有多少正常的相互作用。，可以按如下过滤我们的raw_data RDD。

机器学习实践中如何将Spark与Python结合

　　计数：

　　现在我们可以计算出新RDD中有多少元素。

机器学习实践中如何将Spark与Python结合

　　输出：

机器学习实践中如何将Spark与Python结合

　　制图：

　　在这种情况下，我们想要将数据文件作为CSV格式文件读取。我们可以通过对RDD中的每个元素应用lambda函数。如下所示，这里我们将使用map()和take()转换。

机器学习实践中如何将Spark与Python结合

　　输出:

机器学习实践中如何将Spark与Python结合

　　拆分：

　　现在，我们希望将RDD中的每个元素都用作键值对，其中键是标记(例如正常值)，值是表示CSV格式文件中行的整个元素列表。我们可以按如下进行，这里我们使用line.split()和map()。

机器学习实践中如何将Spark与Python结合

　　输出:

机器学习实践中如何将Spark与Python结合

　　收集：

　　使用collect()动作，将RDD所有元素存入内存。因此，使用大型RDD时必须小心使用。

机器学习实践中如何将Spark与Python结合

　　输出:

机器学习实践中如何将Spark与Python结合

　　当然，这比我们之前的任何操作花费的时间都要长。每个具有RDD片段的Spark工作节点都必须进行协调，以便检索其各部分内容，然后将所有内容集合到一起。

　　作为结合前面所有内容的最后一个例子，我们希望收集所有常规交互作为键值对。

机器学习实践中如何将Spark与Python结合

　　输出:

机器学习实践中如何将Spark与Python结合

以上就是机器学习实践中如何将Spark与Python结合，小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网Python频道。

您可能感兴趣的文档:

--结束END--

本文标题: 机器学习实践中如何将Spark与Python结合

本文链接: https://lsjlt.com/news/231756.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

机器学习实践中如何将Spark与Python结合

本篇文章给大家分享的是有关机器学习实践中如何将Spark与Python结合，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。Apache Spark是处理和使用大数据最广泛的框架之...

99+

2023-06-02
MongoDB与机器学习的结合实践与模型持久化

随着大数据和人工智能的发展，机器学习技术在不断地发展和应用，而数据存储和管理也成为了关键的一环。MongoDB作为一种NoSQL数据库，具有高可扩展性、高性能、灵活数据模型等特性，并且与机器学习的结合也具有很好的优势。本文将介绍MongoD...

99+

2023-11-02

机器学习 MongoDB 模型持久化
Hadoop与机器学习的结合

Hadoop与机器学习的结合，可以帮助企业更好地利用大数据进行分析和预测，从而提高业务决策的准确性和效率。Hadoop分布式计算框架...

99+

2024-02-29

Hadoop
怎么在Spark中实现机器学习任务

在Spark中实现机器学习任务通常使用Spark MLlib或Spark ML库。以下是一个基本的机器学习任务的步骤：加载数据...

99+

2024-03-04

Spark
Python中如何将Tqdm与Asyncio结合使用呢

目录简介困扰已有方法tqdm异步tqdm 概述将 tqdm 与异步集成简介困扰在 Python 中使用并发编程来提高效率对于数据科学家来说并不罕见。在后台观察各种子进程或并发线程...

99+

2023-05-12

Python结合使用Tqdm Asyncio Python Tqdm Asyncio Python Tqdm Python Asyncio
对象和shell：如何将它们结合起来学习PHP？

在学习PHP过程中，你可能会遇到对象和shell的概念。对象是指一种数据类型，它可以存储数据和方法。而shell则是一个命令行界面，可以用来执行各种操作。在本文中，我们将介绍如何将对象和shell结合起来，以便更好地学习PHP。首先，让...

99+

2023-07-31

学习笔记对象 shell
Python机器学习及实践+从零开始通往

内容简介本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具...

99+

2023-01-31

从零开始机器 Python
《机器学习实战》书中python2.7与

《机器学习实战》书中使用的是python2.7，而对于现在新接触python的同学来说都是上手python3.6版本。由于本渣渣也正在学习此书，将陆续列出遇到的不同于现实编码的困难与解决方法（如果能解决的话.......）。 1.在i...

99+

2023-01-31

书中实战机器
PHP、Spring、分布式，如何在学习笔记中有机结合？

随着互联网的快速发展，越来越多的企业开始采用分布式架构来构建自己的应用程序。在这种情况下，开发人员需要掌握多种技术才能开发出高效、可靠的分布式应用程序。其中，PHP和Spring是两种非常流行的技术，本文将介绍如何在学习笔记中有机结合这两...

99+

2023-08-04

spring 分布式学习笔记
Python机器学习中如何配置环境

小编给大家分享一下Python机器学习中如何配置环境，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！Anaconda安装anaconda官方链接：Anaconda ...

99+

2023-06-25
Sphinx PHP 如何结合机器学习算法进行智能搜索

引言：随着互联网信息的快速增长，搜索引擎已经成为我们获取信息的重要途径。然而，传统的搜索引擎往往依赖于基于关键词的检索，容易受到短语模糊、歧义等问题的影响，并且在应对用户查询的多样性时存在局限性，无法提供准确的搜索结果。为了解决这些问题，结...

99+

2023-10-21

机器学习 PHP Sphinx
C++技术中的机器学习：使用C++训练机器学习模型的最佳实践

在 c++++ 中训练机器学习模型的最佳实践包括：使用高效的数据结构。优化内存管理。利用多线程。集成流行的机器学习库。关注代码简洁性。 C++ 技术中的机器学习：训练机器学习模型的最佳...

99+

2024-05-11

机器学习 c++
Golang在机器学习中的最佳实践和用例

在机器学习中有效使用 go 语言的最佳实践包括利用并行性、垃圾收集、类型系统和模块化设计。用例包括图像识别、自然语言处理和机器学习模型训练，通过这些用例，开发人员可以使用 go 的优势创...

99+

2024-05-08

机器学习 golang git
Go语言开发实现机器学习算法的方法与实践

Go语言是一种简洁、快速和高效的编程语言，其在网络开发和服务器编程方面广泛应用。然而，随着人工智能和机器学习的迅猛发展，很多开发者开始关注如何在Go语言中实现机器学习算法。本文将介绍一些在Go语言中开发和实现机器学习算法的方法与实践。首先，...

99+

2023-11-20

机器学习实践 Go语言
Python与Git结合使用: 如何写出高效的分布式学习笔记?

在现代的学习和工作中，我们经常需要写笔记来记录所学的知识和经验。而随着互联网的发展和信息技术的普及，越来越多的人开始采用分布式笔记的方式来记录和分享自己的学习笔记。在这种情况下，Python和Git是两个非常重要的工具，它们可以帮助我们写...

99+

2023-07-01

git 学习笔记分布式
Python数据分析和机器学习如何学

今天就跟大家聊聊有关人工智能浪潮前，Python数据分析和机器学习如何学？，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。如同互联网发展的浪潮，AI正在创造一个全新的世界。面对AI发展...

99+

2023-06-02
如何使用 Python 进行机器学习？

全套学习路线图、课程，机器学习工作流程如下。 Python+人工智能入门： Python基础→Python数据挖掘中级：机器学习进阶： NLP自然语言高级： OpenCV基础→深度学习人工智能学习路线图2023版-黑马程序员人工智能技...

99+

2023-09-21

python 机器学习人工智能
C++技术中的机器学习：使用C++实现机器学习算法的内存管理最佳实践

机器学习中的 c++++ 内存管理最佳实践：使用智能指针管理对象内存，以简化释放。使用内存池减少内存分配和释放开销。管理数组时考虑内置数组、动态数组和向量。实战案例：线性回归算法使用智能...

99+

2024-05-12

机器学习 c++
如何理解Python是最适合机器学习项目的语言

这篇文章给大家介绍如何理解Python是最适合机器学习项目的语言，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。Python因为稳定且易于维护的特性，表现一直很好，近年来，Python 吸引了很多人的眼球。 TIOBE ...

99+

2023-06-15
【Python机器学习】实验15 将Lenet5应用于Cifar10数据集

文章目录 CIFAR10数据集介绍1. 数据的下载2.修改模型与前面的参数设置保持一致3. 新建模型4. 从数据集中分批量读取数据5. 定义损失函数6. 定义优化器7. 开始训练8.测试模型 ...

99+

2023-09-04

python 机器学习 pytorch

软考高级职称资格查询

热门wiki

mysql删除数据恢复

mysql删表能回滚吗

mysql找回删除的表

mysql不小心删除了表

mysql不小心把表删了怎么恢复数据

mysql数据表删除后能恢复么

mysql误删表数据恢复

mysql误删表恢复

mysql删除表怎么恢复

近期文章

python写一段编程，祝福高三考生旗开得胜

PythonOOP 的力量：封装与抽象类的超级英雄联盟

Python 代码的建筑师：封装与抽象类的蓝图和构建工具

PythonOOP 的航海图：封装与抽象类的船帆和指南针

Python 封装与抽象类的实验室：试验和发现的乐趣

Python 代码的可读性之钥：封装与抽象类的解读指南

PythonOOP 的秘密花园：封装与抽象类的花卉盛宴

Python 代码的组织大师：封装与抽象类的秩序之道

Python 封装与抽象类的终极秘籍：通往对象导向编程之路

PythonOOP 的宝藏：封装与抽象类的寻宝之旅

推荐阅读

python分析数据的方法是什么

2024-03-01

如何使用Python实现抽奖小程序

2024-03-01

python copy函数的作用是什么

2024-03-01

python ffmpeg模块怎么安装和使用

2024-02-29

python进程池创建队列的方法是什么

2024-02-29

python无法运行文件的原因有哪些

2024-02-29

python can't open file报错怎么解决

2024-02-29

python keyerror错误怎么解决

2024-02-29

python字符串处理与应用的方法有哪些

2024-02-29

python全局变量如何定义

2024-02-29

热门问答

1

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

1

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

1

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

1

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

1

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

1

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

1

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

1

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

1

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

1

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

编程网，编程工程师的家园，是目前国内优秀的开源技术社区之一，形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容，为IT开发者提供了一个发现、使用、并交流开源技术的平台。

官方手机版
微信公众号
商务合作

Powered by 编程网 | Copyright © 2018-2023, 版权所有. | 网站地图 | 苏ICP备17033115号