首页 > 资讯 > 后端开发 > Python >Python并行处理

442

分享到

Python并行处理

Python 2023-01-31 03:01:17 442人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

原文：Parallel Processing in python 作者：Frank Hofmann 翻译：Diwei 当你在机器上启动某个程序时，它只是在自己的“bubble”里面运行，这个气泡的作用就是用来将同

原文：Parallel Processing in python
作者：Frank Hofmann
翻译：Diwei

当你在机器上启动某个程序时，它只是在自己的“bubble”里面运行，这个气泡的作用就是用来将同一时刻运行的所有程序进行分离。这个“bubble”也可以称之为进程，包含了管理该程序调用所需要的一切。

例如，这个所谓的进程环境包括该进程使用的内存页，处理该进程打开的文件，用户和组的访问权限，以及它的整个命令行调用，包括给定的参数。

此信息保存在UNIX/linux系统的流程文件系统中，该系统是一个虚拟文件系统，可通过/proc目录进行访问。条目都已经根据进程ID排过序了，该ID是每个进程的唯一标识符。示例1显示了具有进程ID#177的任意选择的进程。

示例1:可用于进程的信息

程序越复杂，就越有助于将其分成较小的模块。不仅仅源代码是这样，在机器上执行的代码也同样适用于这条规则。该规则的典型范例就是使用子进程并行执行。这背后的想法就是：

单个进程包含了可以单独运行的代码段
某些代码段可以同时运行，因此原则上允许并行
使用现代处理器和操作系统的特性，例如可以使用处理器的所有核心，这样就可以减少程序的总执行时间
减少程序/代码的复杂性，并将工作外包专门的代理

使用子进程需要重新考虑程序的执行方式，从线性到并行。它类似于将公司的工作视角从普通员工转变为经理——你必须关注谁在做什么，某个步骤需要多长时间，以及中间结果之间的依赖关系。

这有利于将代码分割成更小的部分，这些更小的部分可以由专门用于此任务的代理执行。如果还没有想清楚，试想一下数据集的构造原理，它也是同样的道理，这样就可以由单个代理进行有效的处理。但是这也引出了一些问题：

为什么要将代码并行化?落实到具体案例中或者在努力的过程中，思考这个问题有意义吗?
程序是否打算只运行一次，还是会定期运行在类似的数据集上?
能把算法分成几个单独的执行步骤吗?
数据是否允许并行化?如果不允许，那么数据组织将以何种方式进行调整?
计算的中间结果是否相互依赖?
需要对硬件进行调整吗?
在硬件或算法中是否存在瓶颈，如何避免或者最小化这些因素的影响?
并行化的其他副作用有哪些?

可能的用例就是主进程，以及后台运行的等待被激活的守护进程(主/从)。此外，这可能是启动按需运行的工作进程的一个主要过程。在实践中，主要的过程是一个馈线过程，它控制两个或多个被馈送数据部分的代理，并在给定的部分进行计算。

请记住，由于操作系统所需要的子进程的开销，并行操作既昂贵又耗时。与以线性方式运行两个或多个任务相比，在并行的情况下，根据您的用例，可以在每个子过程中节省25%到30%的时间。例如，如果在系列中执行了两项消耗5秒的任务，那么总共需要10秒的时间，并且在并行化的情况下，在多核机器上平均需要8秒。有3秒是用于各种开销，即这部分是无法压缩和优化的，所以速度提高是有极限的。

Python提供了四种可能的处理方式。首先可以使用multiprocessing模块并行执行功能。第二，进程的替代方法是线程。从技术上讲，这些都是轻量级的进程，不在本文的范围之内。想了解更加详细的内容，可以看看Python的线程模块。第三，可以使用os模块的system()方法或subprocess模块提供的方法调用外部程序，然后收集结果。

multiprocessing模块涵盖了一系列方法来处理并行执行例程。这包括进程，代理池，队列以及管道。

清单1使用了五个代理程序池，同时处理三个值的块。对于代理的数量和对chunksize的值都是任意选择的，用于演示目的。根据处理器中核心的数量来调整这些值。

Pool.map()方法需要三个参数 - 在数据集的每个元素上调用的函数，数据集本身和chunksize。在清单1中，我们使用square函数，并计算给定整数值的平方。此外，chunksize不是必须的。如果未明确设置，则默认chunksize为1。

请注意，代理商的执行订单不能保证，但结果集的顺序是正确的。它根据原始数据集的元素的顺序包含平方值。

清单1：并行运行函数

运行此代码应该产生以下输出：

注意：我们将使用Python 3作为这些例子。

作为数据结构，队列是非常普遍的，并且以多种方式存在。它被组织为先进先出（FIFO）或先进先出（LIFO）/堆栈，以及有和没有优先级（优先级队列）。数据结构被实现为具有固定数量条目的数组，或作为包含可变数量的单个元素的列表。

在列表2.1-2.7中，我们使用FIFO队列。它被实现为已经由来自multiprocessing模块的相应类提供的列表。此外，time模块被加载并用于模拟工作负载。

清单2.1：要使用的模块

接下来，定义一个worker函数（清单2.2）。该函数实际上代表代理，需要三个参数。进程名称指示它是哪个进程，tasks和results都指向相应的队列。

在工作函数里面是一个while循环。tasks和results都是在主程序中定义的队列。tasks.get()从要处理的任务队列中返回当前任务。小于0的任务值退出while循环，返回值为-1。任何其他任务值都将执行一个计算（平方），并返回此值。将值返回到主程序实现为result.put()。这将在results队列的末尾添加计算值。

清单2.2：worker函数

下一步是主循环（参见清单2.3）。首先，定义了进程间通信（IPC）的经理。接下来，添加两个队列，一个保留任务，另一个用于结果。

清单2.3：IPC和队列

完成此设置后，我们定义一个具有四个工作进程（代理）的进程池。我们使用类multiprocessing.Pool()，并创建一个它的实例。接下来，我们定义一个空的进程列表（见清单2.4）。

清单2.4：定义一个进程池

作为以下步骤，我们启动了四个工作进程（代理）。为了简单起见，它们被命名为“P0”到“P3”。使用multiprocessing.Pool()完成创建四个工作进程。这将它们中的每一个连接到worker功能以及任务和结果队列。最后，我们在进程列表的末尾添加新初始化的进程，并使用new_process.start()启动新进程（参见清单2.5）。

清单2.5：准备worker进程

我们的工作进程正在等待工作。我们定义一个任务列表，在我们的例子中是任意选择的整数。这些值将使用tasks.put()添加到任务列表中。每个工作进程等待任务，并从任务列表中选择下一个可用任务。这由队列本身处理（见清单2.6）。

清单2.6：准备任务队列

过了一会儿，我们希望我们的代理完成。每个工作进程对值为-1的任务做出反应。它将此值解释为终止信号，此后死亡。这就是为什么我们在任务队列中放置尽可能多的-1，因为我们有进程运行。在死机之前，终止的进程会在结果队列中放置-1。这意味着是代理正在终止的主循环的确认信号。

在主循环中，我们从该队列读取，并计数-1。一旦我们计算了我们有过程的终止确认数量，主循环就会退出。否则，我们从队列中输出计算结果。

清单2.7：结果的终止和输出

示例2显示了Python程序的输出。运行程序不止一次，您可能会注意到，工作进程启动的顺序与从队列中选择任务的进程本身不可预测。但是，一旦完成结果队列的元素的顺序与任务队列的元素的顺序相匹配。

示例2

注意：如前所述，由于执行顺序不可预测，您的输出可能与上面显示的输出不一致。

system()方法是os模块的一部分，它允许在与Python程序的单独进程中执行外部命令行程序。system()方法是一个阻塞调用，你必须等到调用完成并返回。作为UNIX / Linux拜物教徒，您知道可以在后台运行命令，并将计算结果写入重定向到这样的文件的输出流（参见示例3）：

示例3：带有输出重定向的命令

在Python程序中，您只需简单地封装此调用，如下所示：

清单3：使用os模块进行简单的系统调用

此系统调用创建一个与当前Python程序并行运行的进程。获取结果可能会变得有点棘手，因为这个调用可能会在你的Python程序结束后终止 - 你永远都不会知道。

使用这种方法比我描述的先前方法要贵得多。首先，开销要大得多（进程切换），其次，它将数据写入物理内存，比如一个需要更长时间的磁盘。虽然这是一个更好的选择，你的内存有限（像RAM），而是可以将大量输出数据写入固态磁盘。

该模块旨在替换os.system()和os.spawn()调用。子过程的想法是简化产卵过程，通过管道和信号与他们进行通信，并收集他们生成的输出包括错误消息。

从Python 3.5开始，子进程包含方法subprocess.run()来启动一个外部命令，它是底层subprocess.Popen()类的包装器。作为示例，我们启动UNIX/Linux命令df -h，以查找机器的/ home分区上仍然有多少磁盘空间。在Python程序中，您可以执行如下所示的调用（清单4）。

清单4：运行外部命令的基本示例

这是基本的调用，非常类似于在终端中执行的命令df -h / home。请注意，参数被分隔为列表而不是单个字符串。输出将与示例4相似。与此模块的官方Python文档相比，除了调用的返回值之外，它将调用结果输出到stdout。

示例4显示了我们的呼叫的输出。输出的最后一行显示命令的成功执行。调用subprocess.run()返回一个类CompletedProcess的实例，它有两个名为args（命令行参数）的属性和returncode（命令的返回值）。

示例4：运行清单4中的Python脚本

要抑制输出到stdout，并捕获输出和返回值进行进一步的评估，subprocess.run()的调用必须稍作修改。没有进一步修改，subprocess.run()将执行的命令的输出发送到stdout，这是底层Python进程的输出通道。要获取输出，我们必须更改此值，并将输出通道设置为预定义值subprocess.PIPE。清单5显示了如何做到这一点。

清单5：抓取管道中的输出

如前所述，subprocess.run()返回一个类CompletedProcess的实例。在清单5中，这个实例是一个简单命名为output的变量。该命令的返回码保存在属性output.returncode中，打印到stdout的输出可以在属性output.stdout中找到。请注意，这不包括处理错误消息，因为我们没有更改输出渠道。

由于现在的硬件已经很厉害了，因此也给并行处理提供了绝佳的机会。Python也使得用户即使在非常复杂的级别，也可以访问这些方法。正如在multiprocessing和subprocess模块之前看到的那样，可以让你很轻松的对该主题有很深入的了解。

您可能感兴趣的文档:

--结束END--

本文标题: Python并行处理

本文链接: https://lsjlt.com/news/187342.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python并行处理

Python并行处理

3行代码实现 Python 并行处理，速

Python中怎么实现并行处理

怎么用一行代码实现Python并行处理

golang的串行处理和并行处理区别

Python并发处理

Java并行处理的实现

golang的串行处理和并行处理有什么区别

JavaScript怎么处理并行请求

Teradata怎么支持并行处理

python异常处理并调试

JavaScript中怎么处理并行请求

Java并行处理的实现方法

Teradata支持并行查询处理吗

PHP 函数的并行处理优化

JavaScript中Promise处理异步的并行与串行

怎么在pandas apply中对并行进行处理

python 合并行

详解Java8 CompletableFuture的并行处理用法

Java Stream对象并行处理方法parallel()

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义