首页 > 资讯 > 后端开发 > Python >怎么利用Python快速统计文本的行数

420

分享到

怎么利用Python快速统计文本的行数

2023-06-22 01:06:26 420人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

本篇文章为大家展示了怎么利用python快速统计文本的行数，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。通常我们会用wc -l来统计文件行数，不过用Python统计也很简单。要快速统计一个文本文件中

本篇文章为大家展示了怎么利用python快速统计文本的行数，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

通常我们会用wc -l来统计文件行数，不过用Python统计也很简单。

要快速统计一个文本文件中的行数，其实就是要统计这个文本文件中换行符的个数。为了尽量提高速度，我们需要尽量多读一些文本然后一起处理。统计换行符的个数可以用bytes内置的count方法。

代码如下：

from __future__ import print_functionimport timeif __name__ == '__main__':    import sys    start = time.time()    with open(sys.argv[1],'rb') as f:        count = 0        last_data = '\n'        while True:            data = f.read(0x400000)            if not data:                break            count += data.count(b'\n')            last_data = data        if last_data[-1:] != b'\n':            count += 1 # Remove this if a wc-like count is needed    end = time.time()    print(count)    print((end-start) * 1000)

上面的代码中，我们将文件尾没有换行符的不完整的部分也算作一行，这跟wc -l略有区别，如果要跟wc -l一致的话，可以将带注释的行删掉。

这里没有处理universal newline、忽略空行等逻辑，如果需要这些功能，程序会变得复杂一些。

使用三个文本文件进行测试，分别有一千万行、一亿六千万行、六亿四千万行。先用wc -l运行两次，然后用Python的wc.py。

运行结果：

[root@yz- test]# Docker run -it --rm -v `pwd`:/opt/workspace python:3 bash -c "cd /opt/workspace && time wc -l text.txt && time wc -l text.txt && time python3 wc.py text.txt"10000000 text.txtreal    0m0.086suser    0m0.072ssys     0m0.013s10000000 text.txtreal    0m0.080suser    0m0.060ssys     0m0.019s1000000064.38159942626953real    0m0.150suser    0m0.100ssys     0m0.033s[root@yz- test]# docker run -it --rm -v `pwd`:/opt/workspace python:3 bash -c "cd /opt/workspace && time wc -l text3.txt && time wc -l text3.txt && time python3 wc.py text3.txt"160000000 text3.txtreal    0m1.322suser    0m0.991ssys     0m0.318s160000000 text3.txtreal    0m1.313suser    0m0.966ssys     0m0.341s160000000838.7012481689453real    0m0.908suser    0m0.595ssys     0m0.297s[root@yz- test]# docker run -it --rm -v `pwd`:/opt/workspace python:3 bash -c "cd /opt/workspace && time wc -l text4.txt && time wc -l text4.txt && time python3 wc.py text4.txt"640000000 text4.txtreal    0m5.805suser    0m4.349ssys     0m1.455s640000000 text4.txtreal    0m5.787suser    0m4.342ssys     0m1.445s6400000003323.5926628112793real    0m3.399suser    0m2.255ssys     0m1.108s

可以看到Python实际上是比wc -l更快的，主要因为纯Python的步骤很少，大部分时间都在read()，count()这样的C实现的过程中。wc更慢的原因猜想可能是默认的缓冲区更小，所以需要更多的read()

上述内容就是怎么利用Python快速统计文本的行数，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注编程网Python频道。

您可能感兴趣的文档:

--结束END--

本文标题: 怎么利用Python快速统计文本的行数

本文链接: https://lsjlt.com/news/301773.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

怎么利用Python快速统计文本的行数

怎么利用Python快速统计文本的行数

如何利用Python快速统计文本的行数

Python怎么利用PyPDF2快速拆分PDF文档

怎么利用Python快速找到最大文件

python怎么加快函数运行速度

python 代码统计文件的行数

怎么用Python快速下载大文件

如何利用Python文件索引快速加载大量数据文件？

Python中怎么实现统计行数

python中怎么统计代码行数

怎么用BAT脚本快速编辑host文件

Python怎么快速生成本项目的requeirments.txt

Python实现统计文本文件字数的方法

PHP中怎么利用range()函数快速创建数组

Shell脚本统计文件行数的8种方法

怎么用python dataframe统计行列中零值的个数

python怎么统计英文字母的个数

利用Java怎么统计整数出现的次数

python如何统计并输出文件的行数

怎么用python统计文件类型及数量

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义