python3读取pdf文件

文件 pdf 2023-01-31 02:01:09 417人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

一.安装pdfminer3k模块二.读取pdf文件import sys import importlib importlib.reload(sys) from pdfminer.pdfparser import PDFParser, P

一.安装pdfminer3k模块

二.读取pdf文件

import sys
import importlib
importlib.reload(sys)

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

def readPDF(path, toPath):
    # 以二进制形式打开pdf文件
    with open(path, "rb") as f:
        # 创建一个pdf文档分析器
        parser = PDFParser(f)
        # 创建pdf文档
        pdfFile = PDFDocument()
        # 链接分析器与文档对象
        parser.set_document(pdfFile)
        pdfFile.set_parser(parser)
        # 提供初始化密码
        pdfFile.initialize()
        # 检测文档是否提供txt转换
    if not pdfFile.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 解析数据
        # 数据管理
        manager = PDFResourceManager()
        # 创建一个PDF设备对象
        laparams = LAParams()
        device = PDFPageAggregator(manager, laparams=laparams)
        # 解释器对象
        interpreter = PDFPageInterpreter(manager, device)

        # 开始循环处理，每次处理一页
        for page in pdfFile.get_pages():
            interpreter.process_page(page)
            layout = device.get_result()
            for x in layout:
                if(isinstance(x, LTTextBoxHorizontal)):
                    with open(toPath, "a") as f:
                        str = x.get_text()
                        # print(str)
                        f.write(str+"\n")

path = r"G:\program\PyCharmProjects\day06\3.读取pdf文件\文档.pdf"
toPath = r"G:\program\PycharmProjects\day06\3.读取pdf文件\a.txt"
readPDF(path, toPath)

您可能感兴趣的文档:

--结束END--

本文标题: python3读取pdf文件

本文链接: https://lsjlt.com/news/185710.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

python3读取pdf文件

一.安装pdfminer3k模块二.读取pdf文件import sys import importlib importlib.reload(sys) from pdfminer.pdfparser import PDFParser, P...

99+

2023-01-31

文件 pdf
Unity3D读取PDF文件内容

最近在研究Unity3D中读取PDF的内容，预想了三种方案，一是用Java来实现，二是调用C#的iTextSharp库或者PDFBox库来实现，三是下载PDF Renderer插件（土豪可以买这个插件，支持的系统也比较全面），java不是很...

99+

2023-01-31

文件内容 Unity3D
Python3 读取 toml 配置文件

【吐槽】先吐槽一下其他几个配置文件。ini：表达能力不够，比如不能表达列表等结构；没有官方注释符号，虽然一般以分号作为注释符号。json：没有官方注释符号，虽然某些第三方包提供了注释结构。yaml：语法比较复杂，可读性不太高。【to...

99+

2023-01-31

配置文件 toml
Python3 读取 ini 配置文件（

【背景】　　Windows 的记事本会给 UTF-8 文件添加 BOM 头，很烦，搞个通用的读取配置文件的代码。可能报这种错误：configparser.MissingSectionHeaderError: File contains no...

99+

2023-01-31

配置文件 ini
python读取pdf文档

# -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp impo...

99+

2023-01-31

文档 python pdf
PHP 读取PDF文件内容之PdfParser

composer require smalot/pdfparser 1.一次性读取文件中的所有内容: ...

99+

2023-09-02

php pdf 开发语言
一文教会你用Python读取PDF文件

目录实战场景Python PDF 实战编码补充实战场景 Python 工程师在日常的工作中，经常会碰到解析和处理PDF文件的情况，实战中需求主要分为如下情况：提取 PDF 中的文字...

99+

2024-04-02
Python3读取文件的操作详解

目录1、引言2、 fileinput2.1 方法介绍2.2 默认读取2.3 处理一个文件2.4 处理批量文件2.5 读取与备份2.5 重定向替换2.6 进阶3、总结1、引言小鱼：小...

99+

2024-04-02
python3 如何读取python2的npy文件

python3读取python2打包的npy文件会报错，原因是编码方式不同，所以只要在读取的时候加上编码方式即可。解决方法 docs_train = np.load('./da...

99+

2024-04-02
pdf/word/ppt/... 文件读取插件 - 输入步骤

最近需要做一个 Common File Reader 的 kettle 插件，希望这个插件可以读取例如 PDF, WORD, PPT, WPS 等常见格式文件的内容，今天已经实现了第一步，读取 PDF 的功能。该插件是一个输入步骤，它可以...

99+

2023-06-03
Java读写pdf文件

Java读写pdf文件在OA业务开发中，经常需要java后台读取或生成pdf文件，itextpdf是一个常用的java操作pdf的开源库物料准备： 1.引入itextpdf依赖 2.定义Text2...

99+

2023-09-02

java pdf 开发语言 itextpdf itext-asian
Python3 读写文件

读文件打开一个文件用open()方法(open()返回一个文件对象)： >>> f = open(filename, mode,buffering) #buffering寄存，具体自行搜索 mode：决定了打开文...

99+

2023-01-30

文件
delphi pdf文件读取的方法是什么

在Delphi中，可以使用以下方法来读取PDF文件：使用Adobe Acrobat SDK：首先，需要下载和安装Adobe Ac...

99+

2023-10-30

delphi
python3 文件的读取和通用操作

import os # 当前操作目录，os.chdir() 切换操作目录 >>> import os >>> os.getcwd() 'C:\\ProgramFiles\\Pyth...

99+

2023-01-31

操作文件
python读取pdf文档-实战

# -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAPar...

99+

2023-01-31

实战文档 python
Python - 读取pdf、word、excel、ppt、csv、txt文件提取所有文本

前言本文对使用python读取pdf、word、excel、ppt、csv、txt等常用文件，并提取所有文本的方法进行分享和使用总结。可以读取不同文件的库和方法当然不止下面分享的这些，本文的代码主...

99+

2023-08-31

python pdf word excel ppt csv
Java基于PDFbox实现读取处理PDF文件

目录前言pdfbox介绍开发环境PDFbox依赖快速开始结语前言嗨，大家好，2022年春节已经接近尾声，各地都陆陆续续开工了。近期有朋友做一个小项目正好使用Java读取PDF文件信...

99+

2024-04-02
使用python3怎么读取文件指定行

使用python3怎么读取文件指定行？相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。行遍历实现在python中如果要将一个文件完全加载到内存中，通过file.readlines(...

99+

2023-06-15
python3读取文件指定行的三种方法

目录行遍历实现linecache实现命令行sed获取总结概要行遍历实现在python中如果要将一个文件完全加载到内存中，通过file.readlines()即可，但是在文件占用较高时，我们是无法完整的将文件加载到...

99+

2022-06-02

python 读取行 python 读取指定行
解决jupyter (python3) 读取文件遇到的问题

1、出现错误 train_df = pd.read_csv( 'C:\Users\lenovo\Desktop\train.csv',encoding='utf-8') 报...

99+

2024-04-02