首页 > 资讯 > 后端开发 > Python >awk脚本怎么移植到Python

437

分享到

awk脚本怎么移植到Python

2023-06-16 17:06:20 437人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

本篇文章为大家展示了awk脚本怎么移植到python，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。何时从 awk 转向 Python但是在某些方面，awk 的限制开始显现出来。它没有将文件分解为模块

本篇文章为大家展示了awk脚本怎么移植到python，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

何时从 awk 转向 Python

但是在某些方面，awk 的限制开始显现出来。它没有将文件分解为模块的真正概念，它缺乏质量错误报告，并且缺少了现在被认为是编程语言工作原理的其他内容。当编程语言的这些丰富功能有助于维护关键脚本时，移植将是一个不错的选择。

我最喜欢的完美移植 awk 的现代编程语言是 Python。

在将 awk 脚本移植到 Python 之前，通常值得考虑一下其原始使用场景。例如，由于 awk 的局限性，通常从 Bash 脚本调用 awk 代码，其中包括一些对 sed、sort 之类的其它命令行常见工具的调用。最好将所有内容转换为一个一致的 Python 程序。有时，脚本会做出过于宽泛的假设，例如，即使实际上只运行一个文件，该代码也可能允许任意数量的文件。

在仔细考虑了上下文并确定了要用 Python 替代的东西之后，该编写代码了。

标准 awk 到 Python 功能

以下 Python 功能是有用的，需要记住：

with open(some_file_name) as fpin:    for line in fpin:        pass # do something with line

此代码将逐行循环遍历文件并处理这些行。

如果要访问行号（相当于 awk 的 NR），则可以使用以下代码：

with open(some_file_name) as fpin:    for nr, line in enumerate(fpin):        pass # do something with line

在 Python 中实现多文件的 awk 式行为

如果你需要能够遍历任意数量的文件同时保持行数的持续计数（类似 awk 的 FNR），则此循环可以做到这一点：

def awk_like_lines(list_of_file_names):    def _all_lines():        for filename in list_of_file_names:            with open(filename) as fpin:                yield from fpin    yield from enumerate(_all_lines())

此语法使用 Python 的生成器和 yield from 来构建迭代器，该迭代器将遍历所有行并保持一个持久计数。

如果你需要同时使用 FNR 和 NR，这是一个更复杂的循环：

def awk_like_lines(list_of_file_names):    def _all_lines():        for filename in list_of_file_names:            with open(filename) as fpin:                yield from enumerate(fpin)    for nr, (fnr, line) in _all_lines:        yield nr, fnr, line

更复杂的 FNR、NR 和行数的 awk 行为

如果 FNR、NR 和行数这三个你全都需要，仍然会有一些问题。如果确实如此，则使用三元组（其中两个项目是数字）会导致混淆。命名参数可使该代码更易于阅读，因此最好使用 dataclass：

import dataclass @dataclass.dataclass(frozen=True)class AwkLikeLine:    content: str    fnr: int    nr: int def awk_like_lines(list_of_file_names):    def _all_lines():        for filename in list_of_file_names:            with open(filename) as fpin:                yield from enumerate(fpin)    for nr, (fnr, line) in _all_lines:        yield AwkLikeLine(nr=nr, fnr=fnr, line=line)

你可能想知道，为什么不一直用这种方法呢？使用其它方式的的原因是总用这种方法太复杂了。如果你的目标是把一个通用库更容易地从 awk 移植到 Python，请考虑这样做。但是编写一个可以使你确切地了解特定情况所需的循环的方法通常更容易实现，也更容易理解（因而易于维护）。

理解 awk 字段

一旦有了与一行相对应的字符串，如果要转换 awk 程序，则通常需要将其分解为字段。Python 有几种方法可以做到这一点。这将把行按任意数量的连续空格拆分，返回一个字符串列表：

line.split()

如果需要另一个字段分隔符，比如以 : 分隔行，则需要 rstrip 方法来删除最后一个换行符：

line.rstrip("\n").split(":")

完成以下操作后，列表 parts 将存有分解的字符串：

parts = line.rstrip("\n").split(":")

这种拆分非常适合用来处理参数，但是我们处于偏差一个的错误场景中。现在 parts[0] 将对应于 awk 的 $1，parts[1] 将对应于 awk 的 $2，依此类推。之所以偏差一个，是因为 awk 计数“字段”从 1 开始，而 Python 从 0 开始计数。在 awk 中，$0 是整个行 —— 等同于 line.rstrip("\n")，而 awk 的 NF（字段数）更容易以 len(parts) 的形式得到。

移植 awk 字段到 Python

例如，让我们将这个单行代码“如何使用 awk 从文件中删除重复行”转换为 Python。

awk 中的原始代码是：

awk '!visited[$0]++' your_file > deduplicated_file

“真实的” Python 转换将是：

import collectionsimport sys visited = collections.defaultdict(int)for line in open("your_file"):    did_visit = visited[line]    visited[line] += 1    if not did_visit:        sys.stdout.write(line)

但是，Python 比 awk 具有更多的数据结构。与其计数访问次数（除了知道是否看到一行，我们不使用它），为什么不记录访问的行呢？

import sys visited = set()for line in open("your_file"):    if line in visited:        continue    visited.add(line)    sys.stdout.write(line)

编写 Python 化的 awk 代码

Python 社区提倡编写 Python 化的代码，这意味着它要遵循公认的代码风格。更加 Python 化的方法将区分唯一性和输入/输出的关注点。此更改将使对代码进行单元测试更加容易：

def unique_generator(things):    visited = set()    for thing in things:        if thing in visited:            continue        visited.add(things)        yield thing import sys   for line in unique_generator(open("your_file")):    sys.stdout.write(line)

将所有逻辑置于输入/输出代码之外，可以更好地分离问题，并提高代码的可用性和可测试性。

上述内容就是awk脚本怎么移植到Python，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注编程网Python频道。

您可能感兴趣的文档:

--结束END--

本文标题: awk脚本怎么移植到Python

本文链接: https://lsjlt.com/news/284431.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

awk脚本怎么移植到Python

何时从 awk 转向 Python

标准 awk 到 Python 功能

在 Python 中实现多文件的 awk 式行为

更复杂的 FNR、NR 和行数的 awk 行为

理解 awk 字段

移植 awk 字段到 Python

编写 Python 化的 awk 代码

awk脚本怎么移植到Python

移植Python到ARM9（S3C244

移植Python到arm linux系统

Qt5代码怎么移植到Qt6

怎么将Java代码移植到Go中

使用2to3将代码移植到Python 3

移植python到小米路由器记录。

怎么把数据库从MySQL移植到MemSQL

linux内核怎么移植

sqlite如何迁移到mysql脚本

SQLite数据库怎么移植

Python中MySQL数据迁移到MongoDB脚本的方法

怎么从0移植uboot支持exynos4412？

Python得到代码执行时间脚本怎么写

怎么编写Python脚本

django怎么调用python脚本

go怎么调用python脚本

golang怎么调用python脚本

PYTHON测试脚本怎么写

Python高级脚本怎么写

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义