返回顶部
首页 > 资讯 > 操作系统 >怎么使用GNU Parallel提高Linux命令行执行效率
  • 309
分享到

怎么使用GNU Parallel提高Linux命令行执行效率

2023-06-16 11:06:36 309人浏览 独家记忆
摘要

这篇文章主要为大家展示了“怎么使用GNU Parallel提高linux命令行执行效率”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“怎么使用GNU Parallel提高Linux命令行执行效率”

这篇文章主要为大家展示了“怎么使用GNU Parallel提高linux命令行执行效率”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“怎么使用GNU Parallel提高Linux命令行执行效率”这篇文章吧。

安装 GNU Parallel

GNU Parallel 很可能没有预装在你的 Linux 或 BSD 主机上,你可以从软件源中安装。以 Fedora 为例:

$ sudo dnf install parallel

对于 NetBSD:

# pkg_add parallel

如果各种方式都不成功,请参考项目主页。

从串行到并行

正如其名称所示,Parallel 的强大之处是以并行方式执行任务;而我们中不少人平时仍然以串行方式运行任务。

当你对多个对象执行某个命令时,你实际上创建了一个任务队列。一部分对象可以被命令处理,剩余的对象需要等待,直到命令处理它们。这种方式是低效的。只要数据够多,总会形成任务队列;但与其只使用一个任务队列,为何不使用多个更小规模的任务队列呢?

假设你有一个图片目录,你希望将目录中的图片从 JEEG 格式转换为 PNG 格式。有多种方法可以完成这个任务。可以手动用 GIMP 打开每个图片,输出成新格式,但这基本是最差的选择,费时费力。

上述方法有一个漂亮且简洁的变种,即基于 shell 的方案:

$ convert 001.jpeg 001.png$ convert 002.jpeg 002.png$ convert 003.jpeg 003.png... 略 ...

对于初学者而言,这是一个不小的转变,而且看起来是个不小的改进。不再需要图像界面和不断的鼠标点击,但仍然是费力的。

进一步改进:

$ for i in *jpeg; do convert $i $i.png ; done

至少,这一步设置好任务执行,让你节省时间去做更有价值的事情。但问题来了,这仍然是串行操作;一张图片转换完成后,队列中的下一张进行转换,依此类推直到全部完成。

使用 Parallel:

$ find . -name "*jpeg" | parallel -I% --max-args 1 convert % %.png

这是两条命令的组合:find 命令,用于收集需要操作的对象;parallel 命令,用于对象排序并确保每个对象按需处理。

  • find . -name "*jpeg" 查找当前目录下以 jpeg 结尾的所有文件。

  • parallel 调用 GNU Parallel。

  • -I% 创建了一个占位符 %,代表 find 传递给 Parallel 的内容。如果不使用占位符,你需要对 find 命令的每一个结果手动编写一个命令,而这恰恰是你想要避免的。

  • --max-args 1 给出 Parallel 从队列获取新对象的速率限制。考虑到 Parallel 运行的命令只需要一个文件输入,这里将速率限制设置为 1。假如你需要执行更复杂的命令,需要两个文件输入(例如 cat 001.txt 002.txt > new.txt),你需要将速率限制设置为 2。

  • convert % %.png 是你希望 Parallel 执行的命令。

组合命令的执行效果如下:find 命令收集所有相关的文件信息并传递给 parallel,后者(使用当前参数)启动一个任务,(无需等待任务完成)立即获取参数行中的下一个参数(LCTT 译注:管道输出的每一行对应 parallel 的一个参数,所有参数构成参数行);只要你的主机没有瘫痪,Parallel 会不断做这样的操作。旧任务完成后,Parallel 会为分配新任务,直到所有数据都处理完成。不使用 Parallel 完成任务大约需要 10 分钟,使用后仅需 3 至 5 分钟。

多个输入

只要你熟悉 findxargs (整体被称为 GNU 查找工具,或 findutils),find 命令是一个***的 Parallel 数据提供者。它提供了灵活的接口,大多数 Linux 用户已经很习惯使用,即使对于初学者也很容易学习。

find 命令十分直截了当:你向 find 提供搜索路径和待查找文件的一部分信息。可以使用通配符完成模糊搜索;在下面的例子中,星号匹配任何字符,故 find 定位(文件名)以字符 searchterm 结尾的全部文件:

$ find /path/to/directory -name "*searchterm"

默认情况下,find 逐行返回搜索结果,每个结果对应 1 行:

$ find ~/graphics -name "*jpg"/home/seth/graphics/001.jpg/home/seth/graphics/cat.jpg/home/seth/graphics/penguin.jpg/home/seth/graphics/IMG_0135.jpg

当使用管道将 find 的结果传递给 parallel 时,每一行中的文件路径被视为 parallel 命令的一个参数。另一方面,如果你需要使用命令处理多个参数,你可以改变队列数据传递给 parallel 的方式。

下面先给出一个不那么实际的例子,后续会做一些修改使其更加有意义。如果你安装了 GNU Parallel,你可以跟着这个例子操作。

假设你有 4 个文件,按照每行一个文件的方式列出,具体如下:

$ echo ada > ada ; echo lovelace > lovelace$ echo richard > richard ; echo stallman > stallman$ ls -1adalovelacerichardstallman

你需要将两个文件合并成第三个文件,后者同时包含前两个文件的内容。这种情况下,Parallel 需要访问两个文件,使用 -I% 变量的方式不符合本例的预期。

Parallel 默认情况下读取 1 个队列对象:

$ ls -1 | parallel echoadalovelacerichardstallman

现在让 Parallel 每个任务使用 2 个队列对象:

$ ls -1 | parallel --max-args=2 echoada lovelacerichard stallman

现在,我们看到行已经并合并;具体而言,ls -1 的两个查询结果会被同时传送给 Parallel。传送给  Parallel 的参数涉及了任务所需的 2 个文件,但目前还只是 1 个有效参数:(对于两个任务分别为)“ada lovelace” 和  “richard stallman”。你真正需要的是每个任务对应 2 个独立的参数。

值得庆幸的是,Parallel 本身提供了上述所需的解析功能。如果你将 --max-args 设置为 2,那么 {1}{2} 这两个变量分别代表传入参数的***和第二部分:

$ ls -1 | parallel --max-args=2 cat {1} {2} ">" {1}_{2}.person

在上面的命令中,变量 {1} 值为 adarichard (取决于你选取的任务),变量 {2} 值为 lovelacestallman。通过使用重定向符号(放到引号中,防止被 Bash 识别,以便 Parallel 使用),(两个)文件的内容被分别重定向至新文件 ada_lovelace.personrichard_stallman.person

$ ls -1adaada_lovelace.personlovelacerichardrichard_stallman.personstallman $ cat ada_*personada lovelace$ cat ri*personrichard stallman

如果你整天处理大量几百 MB 大小的日志文件,那么(上述)并行处理文本的方法对你帮忙很大;否则,上述例子只是个用于上手的示例。

然而,这种处理方法对于很多文本处理之外的操作也有很大帮助。下面是来自电影产业的真实案例,其中需要将一个目录中的视频文件和(对应的)音频文件进行合并。

$ ls -112_LS_establishing-manor.avi12_wildsound.flac14_butler-dialogue-mixed.flac14_MS_butler.avi...略...

使用同样的方法,使用下面这个简单命令即可并行地合并文件:

$ ls -1 | parallel --max-args=2 FFmpeg -i {1} -i {2} -vcodec copy -acodec copy {1}.mkv

简单粗暴的方式

上述花哨的输入输出处理不一定对所有人的口味。如果你希望更直接一些,可以将一堆命令甩给 Parallel,然后去干些其它事情。

首先,需要创建一个文本文件,每行包含一个命令:

$ cat jobs2runbzip2 oldstuff.taroggenc music.flacopusenc ambiance.wavconvert bigfile.tiff small.jpegffmepg -i foo.avi -v:b 12000k foo.mp4xsltproc --output build/tmp.fo style/dm.xsl src/tmp.xmlbzip2 arcHive.tar

接着,将文件传递给 Parallel:

$ parallel --jobs 6 < jobs2run

现在文件中对应的全部任务都在被 Parallel 执行。如果任务数量超过允许的数目(LCTT 译注:应该是 --jobs 指定的数目或默认值),Parallel 会创建并维护一个队列,直到任务全部完成。

以上是“怎么使用GNU Parallel提高Linux命令行执行效率”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网操作系统频道!

--结束END--

本文标题: 怎么使用GNU Parallel提高Linux命令行执行效率

本文链接: https://lsjlt.com/news/283341.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 怎么使用GNU Parallel提高Linux命令行执行效率
    这篇文章主要为大家展示了“怎么使用GNU Parallel提高Linux命令行执行效率”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“怎么使用GNU Parallel提高Linux命令行执行效率”...
    99+
    2023-06-16
  • Linux并行作业执行工具GNU Parallel怎么用
    本篇内容介绍了“Linux并行作业执行工具GNU Parallel怎么用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!GNU Paralle...
    99+
    2023-06-27
  • Task怎么提高异步执行效率
    本篇内容介绍了“Task怎么提高异步执行效率”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!async Task 语法糖出来后,异步编程变得非...
    99+
    2023-06-29
  • Node.js使用多进程提高任务执行效率
    最近我有个学员写了个 Node.js 脚本程序,定时从某个服务器下载文件,并向另一个云服务商上传文件。 但是每次只能先下载一个文件,再去上传一个文件。效率比较低。于是他向我请教,怎么...
    99+
    2024-04-02
  • 怎样提高bitblt函数的执行效率
    要提高BitBlt函数的执行效率,可以考虑以下几个方面的优化:1. 减少函数调用次数:每次函数调用都会有一定的开销,可以将多个相邻的...
    99+
    2023-08-18
    bitblt
  • 怎么使用golang执行Linux shell命令
    这篇文章主要讲解了“怎么使用golang执行Linux shell命令”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么使用golang执行Linux shell命令”吧...
    99+
    2023-07-02
  • 如何高效的使用Linux命令行
    这篇文章主要介绍如何高效的使用Linux命令行,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完! 查找Java项目中,main方法定义在哪个文件里.切换到你要查找项目的目录下执行grep -rlI '\<m...
    99+
    2023-06-16
  • 使用php数据缓存技术提高执行效率
    目录PHP 缓存介绍什么是缓存缓存作用常用缓存类型PHP 常用内存缓存介绍php opcode缓存 php文件缓存为什么要使用php缓存技术?理由很简单:提高效率。在程序开...
    99+
    2022-12-14
    php数据缓存技术 php提高执行效率
  • java怎么执行linux命令
    在Java中执行Linux命令有以下几种方法:1. 使用Runtime类的exec()方法:这是最简单的方法,它可以直接执行一个命令...
    99+
    2023-09-17
    java linux
  • 如何使用Golang的同步机制提高执行效率
    在Golang中,可以使用以下几种同步机制来提高执行效率:1. 互斥锁(Mutex):互斥锁可以用来保护共享资源,确保在同一时间只有...
    99+
    2023-10-09
    Golang
  • 使用命令行怎么执行PHP代码
    这篇文章将为大家详细讲解有关使用命令行怎么执行PHP代码,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。Windows 用户的 PHP 安装:按照步骤在 Windows 操作系统上安装 PHP...
    99+
    2023-06-15
  • 怎么并发执行Linux命令
    这篇文章主要讲解了“怎么并发执行Linux命令”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么并发执行Linux命令”吧!串行是按照顺序一条接着一条的执行命令,与串行相对的是多条命令同时执...
    99+
    2023-06-15
  • 如何在Linux中使用命令行计算器GNU bc
    这篇文章主要讲解了“如何在Linux中使用命令行计算器GNU bc”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何在Linux中使用命令行计算器GNU bc”吧!每个现代的Linux桌面发...
    99+
    2023-06-13
  • 怎么使用pv命令监控Linux命令的执行进度
    小编给大家分享一下怎么使用pv命令监控Linux命令的执行进度,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!PV 命令PV 由Andrew Wood 开发,是 P...
    99+
    2023-06-16
  • 如何使用shell命令提高工作效率
    这篇文章主要介绍了如何使用shell命令提高工作效率,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。一、切换目录注意:当前用户是xiaochao,系统为centos6,并且,s...
    99+
    2023-06-09
  • 提高效率的Vue指令怎么使用
    这篇文章主要介绍“提高效率的Vue指令怎么使用”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“提高效率的Vue指令怎么使用”文章能帮助大家解决问题。v-model相信大家对v-model并不陌生,简单...
    99+
    2023-07-05
  • java怎么远程执行linux命令
    可以使用Java中的ProcessBuilder类来远程执行Linux命令。下面是一个简单的示例代码:```javaimport j...
    99+
    2023-09-29
    java linux
  • 如何使用 Linux 命令行工具优化 Laravel 接口运行效率?
    Laravel 是一个流行的 PHP 开发框架,它提供了一套丰富的工具和功能来快速构建 Web 应用程序。然而,当我们面对大量访问和数据处理时,我们需要优化我们的代码和服务器环境以提高应用程序的性能。本文将介绍如何使用 Linux 命令行工...
    99+
    2023-08-17
    laravel linux 接口
  • 如何使用PHP7的CLI模式提高脚本的执行效率?
    如何使用PHP7的CLI模式提高脚本的执行效率?PHP是一种非常流行的服务器端脚本语言,而PHP7则是PHP系列中最新版本的一个重大升级。PHP7不仅提供了许多新的特性和改进,还引入了一种命令行界面(CLI)模式,可以帮助开发者更好地使用P...
    99+
    2023-10-22
    PHP 执行效率 CLI模式
  • Linux命令执行顺序符号怎么用
    这篇文章主要介绍了Linux命令执行顺序符号怎么用,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。要想一次执行多个命令可以使用&&、||、()来控制命令的执行顺...
    99+
    2023-06-27
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作