首页 > 资讯 > 操作系统 >怎么使用GNU Parallel提高Linux命令行执行效率

309

分享到

怎么使用GNU Parallel提高Linux命令行执行效率

2023-06-16 11:06:36 309人浏览独家记忆

摘要

这篇文章主要为大家展示了“怎么使用GNU Parallel提高linux命令行执行效率”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“怎么使用GNU Parallel提高Linux命令行执行效率”

这篇文章主要为大家展示了“怎么使用GNU Parallel提高linux命令行执行效率”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“怎么使用GNU Parallel提高Linux命令行执行效率”这篇文章吧。

安装 GNU Parallel

GNU Parallel 很可能没有预装在你的 Linux 或 BSD 主机上，你可以从软件源中安装。以 Fedora 为例：

$ sudo dnf install parallel

对于 NetBSD：

# pkg_add parallel

如果各种方式都不成功，请参考项目主页。

从串行到并行

正如其名称所示，Parallel 的强大之处是以并行方式执行任务；而我们中不少人平时仍然以串行方式运行任务。

当你对多个对象执行某个命令时，你实际上创建了一个任务队列。一部分对象可以被命令处理，剩余的对象需要等待，直到命令处理它们。这种方式是低效的。只要数据够多，总会形成任务队列；但与其只使用一个任务队列，为何不使用多个更小规模的任务队列呢？

假设你有一个图片目录，你希望将目录中的图片从 JEEG 格式转换为 PNG 格式。有多种方法可以完成这个任务。可以手动用 GIMP 打开每个图片，输出成新格式，但这基本是最差的选择，费时费力。

上述方法有一个漂亮且简洁的变种，即基于 shell 的方案：

$ convert 001.jpeg 001.png$ convert 002.jpeg 002.png$ convert 003.jpeg 003.png... 略 ...

对于初学者而言，这是一个不小的转变，而且看起来是个不小的改进。不再需要图像界面和不断的鼠标点击，但仍然是费力的。

进一步改进：

$ for i in *jpeg; do convert $i $i.png ; done

至少，这一步设置好任务执行，让你节省时间去做更有价值的事情。但问题来了，这仍然是串行操作；一张图片转换完成后，队列中的下一张进行转换，依此类推直到全部完成。

使用 Parallel:

$ find . -name "*jpeg" | parallel -I% --max-args 1 convert % %.png

这是两条命令的组合：find 命令，用于收集需要操作的对象；parallel 命令，用于对象排序并确保每个对象按需处理。

find . -name "*jpeg" 查找当前目录下以 jpeg 结尾的所有文件。
parallel 调用 GNU Parallel。
-I% 创建了一个占位符 %，代表 find 传递给 Parallel 的内容。如果不使用占位符，你需要对 find 命令的每一个结果手动编写一个命令，而这恰恰是你想要避免的。
--max-args 1 给出 Parallel 从队列获取新对象的速率限制。考虑到 Parallel 运行的命令只需要一个文件输入，这里将速率限制设置为 1。假如你需要执行更复杂的命令，需要两个文件输入（例如 cat 001.txt 002.txt > new.txt），你需要将速率限制设置为 2。
convert % %.png 是你希望 Parallel 执行的命令。

组合命令的执行效果如下：find 命令收集所有相关的文件信息并传递给 parallel，后者（使用当前参数）启动一个任务，（无需等待任务完成）立即获取参数行中的下一个参数（LCTT 译注：管道输出的每一行对应 parallel 的一个参数，所有参数构成参数行）；只要你的主机没有瘫痪，Parallel 会不断做这样的操作。旧任务完成后，Parallel 会为分配新任务，直到所有数据都处理完成。不使用 Parallel 完成任务大约需要 10 分钟，使用后仅需 3 至 5 分钟。

多个输入

只要你熟悉 find 和 xargs （整体被称为 GNU 查找工具，或 findutils），find 命令是一个***的 Parallel 数据提供者。它提供了灵活的接口，大多数 Linux 用户已经很习惯使用，即使对于初学者也很容易学习。

find 命令十分直截了当：你向 find 提供搜索路径和待查找文件的一部分信息。可以使用通配符完成模糊搜索；在下面的例子中，星号匹配任何字符，故 find 定位（文件名）以字符 searchterm 结尾的全部文件：

$ find /path/to/directory -name "*searchterm"

默认情况下，find 逐行返回搜索结果，每个结果对应 1 行：

$ find ~/graphics -name "*jpg"/home/seth/graphics/001.jpg/home/seth/graphics/cat.jpg/home/seth/graphics/penguin.jpg/home/seth/graphics/IMG_0135.jpg

当使用管道将 find 的结果传递给 parallel 时，每一行中的文件路径被视为 parallel 命令的一个参数。另一方面，如果你需要使用命令处理多个参数，你可以改变队列数据传递给 parallel 的方式。

下面先给出一个不那么实际的例子，后续会做一些修改使其更加有意义。如果你安装了 GNU Parallel，你可以跟着这个例子操作。

假设你有 4 个文件，按照每行一个文件的方式列出，具体如下：

$ echo ada > ada ; echo lovelace > lovelace$ echo richard > richard ; echo stallman > stallman$ ls -1adalovelacerichardstallman

你需要将两个文件合并成第三个文件，后者同时包含前两个文件的内容。这种情况下，Parallel 需要访问两个文件，使用 -I% 变量的方式不符合本例的预期。

Parallel 默认情况下读取 1 个队列对象：

$ ls -1 | parallel echoadalovelacerichardstallman

现在让 Parallel 每个任务使用 2 个队列对象：

$ ls -1 | parallel --max-args=2 echoada lovelacerichard stallman

现在，我们看到行已经并合并；具体而言，ls -1 的两个查询结果会被同时传送给 Parallel。传送给 Parallel 的参数涉及了任务所需的 2 个文件，但目前还只是 1 个有效参数：（对于两个任务分别为）“ada lovelace” 和 “richard stallman”。你真正需要的是每个任务对应 2 个独立的参数。

值得庆幸的是，Parallel 本身提供了上述所需的解析功能。如果你将 --max-args 设置为 2，那么 {1} 和 {2} 这两个变量分别代表传入参数的***和第二部分：

$ ls -1 | parallel --max-args=2 cat {1} {2} ">" {1}_{2}.person

在上面的命令中，变量 {1} 值为 ada 或 richard （取决于你选取的任务），变量 {2} 值为 lovelace 或 stallman。通过使用重定向符号（放到引号中，防止被 Bash 识别，以便 Parallel 使用），（两个）文件的内容被分别重定向至新文件 ada_lovelace.person 和 richard_stallman.person。

$ ls -1adaada_lovelace.personlovelacerichardrichard_stallman.personstallman $ cat ada_*personada lovelace$ cat ri*personrichard stallman

如果你整天处理大量几百 MB 大小的日志文件，那么（上述）并行处理文本的方法对你帮忙很大；否则，上述例子只是个用于上手的示例。

然而，这种处理方法对于很多文本处理之外的操作也有很大帮助。下面是来自电影产业的真实案例，其中需要将一个目录中的视频文件和（对应的）音频文件进行合并。

$ ls -112_LS_establishing-manor.avi12_wildsound.flac14_butler-dialogue-mixed.flac14_MS_butler.avi...略...

使用同样的方法，使用下面这个简单命令即可并行地合并文件：

$ ls -1 | parallel --max-args=2 FFmpeg -i {1} -i {2} -vcodec copy -acodec copy {1}.mkv

简单粗暴的方式

上述花哨的输入输出处理不一定对所有人的口味。如果你希望更直接一些，可以将一堆命令甩给 Parallel，然后去干些其它事情。

首先，需要创建一个文本文件，每行包含一个命令：

$ cat jobs2runbzip2 oldstuff.taroggenc music.flacopusenc ambiance.wavconvert bigfile.tiff small.jpegffmepg -i foo.avi -v:b 12000k foo.mp4xsltproc --output build/tmp.fo style/dm.xsl src/tmp.xmlbzip2 arcHive.tar

接着，将文件传递给 Parallel：

$ parallel --jobs 6 < jobs2run

现在文件中对应的全部任务都在被 Parallel 执行。如果任务数量超过允许的数目（LCTT 译注：应该是 --jobs 指定的数目或默认值），Parallel 会创建并维护一个队列，直到任务全部完成。

以上是“怎么使用GNU Parallel提高Linux命令行执行效率”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注编程网操作系统频道！

--结束END--

本文标题: 怎么使用GNU Parallel提高Linux命令行执行效率

本文链接: https://lsjlt.com/news/283341.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

怎么使用GNU Parallel提高Linux命令行执行效率

安装 GNU Parallel

从串行到并行

多个输入

简单粗暴的方式

怎么使用GNU Parallel提高Linux命令行执行效率

Linux并行作业执行工具GNU Parallel怎么用

Task怎么提高异步执行效率

Node.js使用多进程提高任务执行效率

怎样提高bitblt函数的执行效率

怎么使用golang执行Linux shell命令

如何高效的使用Linux命令行

使用php数据缓存技术提高执行效率

java怎么执行linux命令

如何使用Golang的同步机制提高执行效率

使用命令行怎么执行PHP代码

怎么并发执行Linux命令

如何在Linux中使用命令行计算器GNU bc

怎么使用pv命令监控Linux命令的执行进度

如何使用shell命令提高工作效率

提高效率的Vue指令怎么使用

java怎么远程执行linux命令

如何使用 Linux 命令行工具优化 Laravel 接口运行效率？

如何使用PHP7的CLI模式提高脚本的执行效率？

Linux命令执行顺序符号怎么用

linux vmstat命令有哪些功能

linux转义字符使用的方法是什么

linux安装node怎么使用

如何查看Linux系统版本号

linux系统怎么配置ntp服务

win10安装报0x25D错误怎么解决

win10开机卡在用户登录界面如何解决

win10新机怎么跳过创建账户

win10中config.msi文章能不能删除

win10改为ahci后无法进入系统怎么解决