首页 > 资讯 > 操作系统 >如何利用多核CPU来加速你的Linux命令(GNU Parallel)

148

分享到

如何利用多核CPU来加速你的Linux命令(GNU Parallel)

GNU Parallel 多核CPU加速Linux命令 2022-06-04 22:06:55 148人浏览安东尼

摘要

你是否曾经有过要计算一个非常大的数据(几百GB)的需求ZEchYswiJ？或在里面搜索，或其它操作——一些无法并行的操作。数据专家们，我是在对你们说。你可能有一个4核或更多核的CPU，但我们合适的工具，例如 grep,

你是否曾经有过要计算一个非常大的数据(几百GB)的需求ZEchYswiJ？或在里面搜索，或其它操作——一些无法并行的操作。数据专家们，我是在对你们说。你可能有一个4核或更多核的CPU，但我们合适的工具，例如 grep, bzip2, wc, awk, sed 等等，都是单线程的，只能使用一个CPU内核。

借用卡通人物Cartman的话，“如何我能使用这些内核”?

要想让linux命令使用所有的CPU内核，我们需要用到GNU Parallel命令，它让我们所有的CPU内核在单机内做神奇的map-reduce操作，当然，这还要借助很少用到的–pipes 参数(也叫做–spreadstdin)。这样，你的负载就会平均分配到各CPU上，真的。

BZIP2

bzip2是比gzip更好的压缩工具，但它很慢！别折腾了，我们有办法解决这问题。

以前的做法：


cat bigfile.bin | bzip2 --best > compressedfile.bz2

现在这样：


cat bigfile.bin | parallel --pipe --recend '' -k bzip2 --best > compressedfile.bz2

尤其是针对bzip2，GNU parallel在多核CPU上是超级的快。你一不留神，它就执行完成了。

GREP

如果你有一个非常大的文本文件，以前你可能会这样：


grep pattern bigfile.txt

现在你可以这样：


cat bigfile.txt | parallel --pipe grep 'pattern'

或者这样：


cat bigfile.txt | parallel --block 10M --pipe grep 'pattern'

这第二种用法使用了 –block 10M参数，这是说每个内核处理1千万行——你可以用这个参数来调整每个CUP内核处理多少行数据。

AWK

下面是一个用awk命令计算一个非常大的数据文件的例子。

常规用法：


cat rands20M.txt | awk '{s+=$1} END {print s}'

现在这样：


cat rands20M.txt | parallel --pipe awk \'{s+=\$1} END {print s}\' | awk '{s+=$1} END {print s}'

这个有点复杂：parallel命令中的–pipe参数将cat输出分成多个块分派给awk调用，形成了很多子计算操作。这些子计算经过第二个管道进入了同一个awk命令，从而输出最终结果。第一个awk有三个反斜杠，这是GNU parallel调用awk的需要。

想要最快的速度计算一个文件的行数吗？

传统做法：


wc -l bigfile.txt

现在你应该这样：


cat bigfile.txt | parallel --pipe wc -l | awk '{s+=$1} END {print s}'

非常的巧妙，先使用parallel命令‘mapping'出大量的wc -l调用，形成子计算，最后通过管道发送给awk进行汇总。

SED

想在一个巨大的文件里使用sed命令做大量的替换操作吗？

常规做法：


sed s^old^new^g bigfile.txt

现在你可以：


cat bigfile.txt | parallel --pipe sed s^old^new^g

…然后你可以使用管道把输出存储到指定的文件里。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

--结束END--

本文标题: 如何利用多核CPU来加速你的Linux命令(GNU Parallel)

本文链接: https://lsjlt.com/news/20108.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

如何利用多核CPU来加速你的Linux命令(GNU Parallel)

如何利用多核CPU来加速你的Linux命令(GNU Parallel)

如何使用CPU加速Linux命令执行速度

如何使用parallel利用起你的所有CPU资源

如何使用命令行来保护你的Linux服务器

Linux下利用unzip命令如何解压多个文件详解

Linux如何利用lsof命令恢复删除的文件

如何利用linux命令查看某个目录的内容

如何使用Linux中监控CPU与虚拟内存运行信息的命令

如何在Python中使用HTTP文件重定向来加速你的应用程序？

如何利用JavaScript优化页面加载性能，让你的网站飞起来

如何快速浏览Linux下基本的用户和用户组管理命令

在Linux中如何使用bd命令快速返回到特定的父目录

如何使用 PHP 容器和 Django 索引来加速你的 Web 应用程序的开发和部署？

如何使用Linux命令行检测DVD刻录机的名字和读写的速度

ASP异步编程框架：你是否知道如何利用其优点加速应用程序的开发？

linux如何用于了解你是否必须远程连接到别的机器的不错的命令

linux下如何使用fdisk结合partprobe命令不重启系统添加一块新的磁盘分区

linux如何罗列一个包括程序关键词的命令列表，当你仅知晓程序是干什么，而又不记得命令时特别有用

linux vmstat命令有哪些功能

linux转义字符使用的方法是什么

linux安装node怎么使用

如何查看Linux系统版本号

linux系统怎么配置ntp服务

win10安装报0x25D错误怎么解决

win10开机卡在用户登录界面如何解决

win10新机怎么跳过创建账户

win10中config.msi文章能不能删除

win10改为ahci后无法进入系统怎么解决