返回顶部
首页 > 资讯 > 后端开发 > Python >如何轻松搞定Pdf转Word用Python
  • 404
分享到

如何轻松搞定Pdf转Word用Python

2023-06-16 12:06:34 404人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

这期内容当中小编将会给大家带来有关如何轻松搞定pdf转Word用python,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。大家在日常的工作学习过程中,都会遇到一个问题就是将pdf中的文本内容转化为word

这期内容当中小编将会给大家带来有关如何轻松搞定pdfWordpython,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

大家在日常的工作学习过程中,都会遇到一个问题就是将pdf中的文本内容转化为word的形式,也就是从只读变成可读写的形式。面对这种情况,大家大都采用网上的工具,但是网上的工具良莠不齐,很难达到我们的需求。

今天,小编就带领大家利用Python来实现如何将pdf的内容转化为word文档。同时我们还将提取pdf中的图片,保存到我们的指定文件夹内。

01.文字的提取

我们首先要做的是对于pdf中文本的提取,如下图所示:

如何轻松搞定Pdf转Word用Python

Pdf中文字是只允许我们进行只读,但是无法进行更改,所以我们要做的就是提取pdf中的文字信息,然后将提取到的文字写入到word文件当中,让我们能够进行后续的改写。对于文字的提取,我们利用的是pdfminer函数库,其主要的函数如下图所示:

如何轻松搞定Pdf转Word用Python

  • 程序首先利用get_content_from_pdf函数来返回pdf中提取到的数据;

  • 然后分别创建了PDFResourceManager对象来保存共享数据内容,PDFPageAggregator对象来将资源对象处理成我们需要的格式,而PDFPageInterpreter则是用来处理页面的内容;

  • 程序中page_index用来帮助我们设定需要提取哪几页的内容,对于我们需要提取的页面,通过创建的PDFPageInterpreter对象来对页面信息进行解释;

  • 最后通过PDFPageAggregator对象来对数据进行处理;

这里的layout中就包含了页面解析出来的各种对象。包括文本,图片等信息。但是小编发现,对于图片的提取,pdfminer的效果很不好,所以后面针对于图片的提取,小编采用的fitz库进行单独的处理,取得很好的图片提取效果。说了这么多,我们先来看一下对于文本的处理结果。

如何轻松搞定Pdf转Word用Python

我们的pdf是一个两页的pdf文档,我们只让程序去提取第一页的文本,从上图可以看出,程序完整的提取出第一页的文本,没有任何的错误。

02.图片的提取

有了对于文字的处理,接下来我们就来看一下如何提取pdf中的图片,并将其保存到本地。对于图片的提取,程序如下图所示:

如何轻松搞定Pdf转Word用Python

上述的程序中,我们利用fitz库来提取pdf文档中的对象,然后通过字符串匹配来判断对象是不是图片类型,如果不是的话,我们直接进行跳过即可。

如果判断对象是图片类型的话,我们边可以通过创建PixMap对象来提取图片,并保存到我们指定的路径下即可。结果如下图所示:

如何轻松搞定Pdf转Word用Python

上图可以看出,我们正确的将图片进行了提取,从而达到了我们的图片提取的目的,而且小编也尝试过多个图片的提取,同样也是没有任何压力。可以在短短的几秒内完成pdf文档的所有图片的提取。

上述就是小编为大家分享的如何轻松搞定Pdf转Word用Python了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注编程网Python频道。

--结束END--

本文标题: 如何轻松搞定Pdf转Word用Python

本文链接: https://lsjlt.com/news/283603.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 如何轻松搞定Pdf转Word用Python
    这期内容当中小编将会给大家带来有关如何轻松搞定Pdf转Word用Python,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。大家在日常的工作学习过程中,都会遇到一个问题就是将pdf中的文本内容转化为word...
    99+
    2023-06-16
  • 如何轻松完成PDF转Excel
    这篇文章给大家介绍如何轻松完成PDF转Excel,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。PDF和Excel是我们日常学习和办公中经常会用得到的文件格式,有时为了方便查看、传输或编辑,需要进行两个格式之间的相互转化...
    99+
    2023-06-04
  • 轻松搞定Java内存泄漏(转)
    轻松搞定Java内存泄漏(转)[@more@] 抽象  尽管java虚拟机和垃圾回收机制管理着大部分的内存事务,但是在java软件中还是可能存在内存泄漏的情况。的确,在大型工程中,内存泄漏是一个普遍问题。避免内存泄漏的第一步,就是要了解他们...
    99+
    2023-06-03
  • Python利用PyAutoGUI轻松搞定图片上传
    目录实时获取鼠标的当前坐标开始上传了完整脚本运行过程最近用vuepress建了个博客,音乐的背景图片需要网络地址。 还有博客自动复用的摘要图片也需地址 开始用的阿里云的免费对象存...
    99+
    2024-04-02
  • Python使用MoviePy轻松搞定视频编辑
    目录I. 简介II. 安装III. 使用1. 创建一个视频剪辑对象2. 剪辑视频3. 剪切视频片段4. 改变视频尺寸和速度5. 合并视频6. 合并多个视频7. 用混合模式合并视频8....
    99+
    2023-05-19
    Python MoviePy实现视频编辑 Python MoviePy视频编辑 Python MoviePy视频 Python MoviePy
  • 一文教你如何用Python轻轻松松操作Excel,Word,CSV
    目录Python 操作 Excel常用工具xlrd & xlwt & xlutils 介绍安装库写入 Excel读取 Excel修改 excel格式转换操作Pytho...
    99+
    2024-04-02
  • 化繁为简:用 Vue 轻轻松松搞定 RESTful API
    RESTful API 作为一种广泛使用的网络接口标准,为现代 Web 应用程序提供了一种简洁高效的交互方式。使用 Vue.js 等 JavaScript 框架,可以轻松方便地与 RESTful API 进行交互,从而实现数据的获取、传...
    99+
    2024-03-08
    Vue.js、RESTful API、HTTP 请求、axios
  • 如何利用python将pdf文档转为word?
    1.前言 有些时候,我们需要将pdf文档转换为word文档进行处理,但市面上的一些pdf软件往往需要付费才能使用。那么作为一名技术人员,如何才能实现pdf转word自由? 2.准备工作 提前安装好py...
    99+
    2023-09-05
    word python pdf
  • 如何利用Python将html转为pdf、word文件
    目录前言转 pdf安装 pdfkit 库安装 wkhtmltopdf 文件url 生成 pdf本地 html 文件生成 pdf转 word安装 pypandoc 库安装 pandoc...
    99+
    2022-12-19
    python将html转pdf python将html转word python pdf处理
  • 如何用php把word转pdf文件
    这篇文章主要介绍了如何用php把word转pdf文件的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇如何用php把word转pdf文件文章都会有所收获,下面我们一起来看看吧。PHP和LibreOffice最好的文...
    99+
    2023-07-05
  • python调用文字识别OCR轻松搞定验证码
    今天带你们去研究一个有趣的东西,文字识别OCR。不知道你们有没有想要识别图片,然后读出文字的功能。例如验证码,如果需要自动填写的话就需要这功能。还有很多种情况需要这功能的。 我们可...
    99+
    2024-04-02
  • windows中abbyy如何将pdf转word
    这篇文章主要介绍“windows中abbyy如何将pdf转word”,在日常操作中,相信很多人在windows中abbyy如何将pdf转word问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,...
    99+
    2022-12-09
    windows abbyy word
  • 如何使用Python代码写出pdf转word小工具
    这篇文章将为大家详细讲解有关如何使用Python代码写出pdf转word小工具,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。一、图示上面为pdf截图内容,下面为转化后的word截图内容接下来,我们试试自己...
    99+
    2023-06-15
  • 通过5个知识点轻松搞定Python的作用域
    1、块级作用域 想想此时运行下面的程序会有输出吗?执行会成功吗? #块级作用域 if 1 == 1: name = "lzl" print(name) for i in range(1...
    99+
    2022-06-04
    知识点 作用 轻松
  • 数据转移不求人:CMS 导入导出轻松搞定
    ...
    99+
    2024-04-02
  • SpringBoot如何实现word文档转pdf
    目录一.背景二.方案选择1.Spire.Doc for Java方案2.docx4j方案3.jodconverter+LibreOffice 方案4.其他三.实操1.docx4j2....
    99+
    2024-04-02
  • Java如何实现无损Word转PDF
    这篇文章主要介绍“Java如何实现无损Word转PDF”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Java如何实现无损Word转PDF”文章能帮助大家解决问题。word转pdf实现思路代码实现主要...
    99+
    2023-07-02
  • 使用python怎么将Word转换成pdf
    这篇文章将为大家详细讲解有关使用python怎么将Word转换成pdf,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。python的五大特点是什么python的五大特点:1.简单易学,开发程序...
    99+
    2023-06-14
  • 如何轻松救回Mac丢失的档案--四招搞定
    如果您遇到Mac 数据丢失怎么办?使用Mac多年后,文件或文件突然毫无征兆地弹出,一定是令人心碎和恐惧!放轻松!实际上有一种方法可以恢复Mac 数据,比您想像的要好!第一步是了解您的Mac 导致文件消失的原因。大多数意外删除或服务失败的情况...
    99+
    2022-06-16
    mac 找回 资料
  • 1个文件如何轻松搞定Asp.net core 3.1动态页面转静态页面
    前言 最近一个Asp.net core项目需要静态化页面,百度查找了一下,没有发现合适的。原因如下 配置麻烦。 类库引用了第三方类,修改起来麻烦。 有只支持MVC,...
    99+
    2022-06-07
    静态 静态页面 core net 动态 ASP.NET ASP
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作