首页 > 资讯 > 精选 >shell两个文件去重的方式

557

分享到

shell两个文件去重的方式

2023-06-09 17:06:25 557人浏览薄情痞子

摘要

本篇内容主要讲解“shell两个文件去重的方式”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“shell两个文件去重的方式”吧!前言大家都知道shell在文本处理上确有极大优势，比如多文本合并、去

本篇内容主要讲解“shell两个文件去重的方式”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“shell两个文件去重的方式”吧!

前言

大家都知道shell在文本处理上确有极大优势，比如多文本合并、去重等，但是最近遇到了一个难搞的问题，即两个大数据量文件去重。下面来看看详细的介绍吧。

要求

有txt文件A.txt和B.txt。

其中A为关键词和搜索量，以逗号分隔，约90万行。

B为关键词，约400万行。

需要从A中找出与B重复的关键词。

我试了N种姿势，但结果都不尽人意，最奇怪的是有些方法对小数据量的测试文件有用，一旦用在A与B上就会失败，真叫人百思不得其解。

姿势一：

awk -F, '{print $1}' A >keyWords.txtcat keywords.txt B.txt | sort | uniq -d #先从A.txt种取出关键词，然后与B.txt一起打开，用sort排序，uniq -d 取出重复的行

姿势二：

awk -F, '{print $1}' A >keywords.txt#照例先取出关键词 comm -1 -2 keywords.txt B.txt#利用comm命令，显示两个文件都存在的行

姿势三：

awk -F, '{print $1}' A >keywords.txtfor i in `cat keywords.txt`do  A=`egrep -c "^$i$" B.txt`  if [ $A != 0 ]  then    echo $i >>重复关键词.txt  fidone #这种姿势就稍微复杂点#首先取出关键词，然后利用for循环逐个去B.txt里面匹配（注意正则写法^$i$），如果匹配到的结果数不为0，说明这个关键词是重复的，然后输出#这种方法的优点是稳妥，缺点是效率太TM低了，90万个词逐一与400万词匹配，shell默认又没有多线程，耗时太长。

姿势四：

awk -F, '{print $1}' A >keywords.txtcat keywords.txt B.txt | awk '!a[$1]++' #这个方法的原理其实我不太懂，awk命令实在太强大太高深了，但是这种方法又简洁又快速

其实还有一种grep -v 、grep -f 的方法，但是我没有试过，所以不在这里列出了。

到此，相信大家对“shell两个文件去重的方式”有了更深的了解，不妨来实际操作一番吧！这里是编程网网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

--结束END--

本文标题: shell两个文件去重的方式

本文链接: https://lsjlt.com/news/256886.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

使用golang框架有哪些常见的问题？

2024-05-24

golang框架与其他流行框架的比较？

2024-05-24

如何使用 C++ STL 扩展 C++ 语言的功能？

2024-05-24

PHP 框架安全指南：如何实现安全编码实践？

2024-05-24

mysql拆分函数使用要注意哪些事项

2024-05-24

C++ 思维导图：全面整理编程核心知识

2024-05-24

基于社区支持最强大的PHP框架

2024-05-24

如何在 C++ 中有效使用 STL 函数对象？

2024-05-24

PHP 框架中的调试和故障排除技术

2024-05-24

经验丰富的开发者的PHP框架评估指南

2024-05-24

热门问答

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

shell两个文件去重的方式

shell两个文件去重的方式

shell两个文件去重的多种姿势

shell脚本两个文件关键行合并方式

mysql两个字段去重的方法是什么

Hive数据去重的两种方式 (distinct和group by)

Hive数据去重的两种方式 (distinct和group by)

两个linux服务器间复制文件方式

Shell脚本对比两个文本文件找出不同行的2个方法分享

Excel文件读取的两种方式

Shell脚本对比两个文本文件找出不同行的方法介绍

有哪些Shell脚本去重的方法

如何将一个CSV格式的文件分割成两个CSV文件

Shell 命令替换的两种方式

Shell脚本去重的几种方法实例

sql去重的方式有哪些

java stream去重的几种方式

sql中三种去重的方式

shell中删除文件中重复行的方法

java 文件压缩zip【两种方式】

java实现文件下载的两种方式

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南