通过Python的PyPDF2库提取pdf中的文字

pdf 人工智能开发语言 python 2023-09-10 05:09:30 470人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

文章目录前言一、PyPDF2库是什么？二、安装PyPDF2库三、查看PyPDF2库版本四、使用方法1.引入库2.定义pdf路径3.打开PDF文件4.创建PDF阅读器对象5.获取PDF文件中的

文章目录

前言
一、PyPDF2库是什么？
二、安装PyPDF2库
三、查看PyPDF2库版本
四、使用方法
总结

前言

一、Pypdf2库是什么？

PyPDF2是一个用于处理PDF文件的python库，它提供了许多用于读取和操作PDF文件的功能。它可以对PDF文件进行合并、分割、旋转、提取页面、加密和解密等操作，也可以添加文本、图像和水印等元素到PDF文件中。
PyPDF2库允许开发人员通过Python代码轻松地处理PDF文件，因为它提供了一些简单易用的接口，同时它也非常灵活，可以根据需要进行自定义操作。对于需要处理PDF文件的Python应用程序，PyPDF2是一个非常实用的工具库。

二、安装PyPDF2库

pip install PyPDF2

三、查看PyPDF2库版本

pip show PyPDF2

Name: PyPDF2
Version: 3.0.1
Summary: A pure-python PDF library capable of splitting, merging, cropping, and transfORMing PDF files
Home-page:
Author:
Author-email: Mathieu Fenniak biziqe@mathieu.fenniak.net
License:
Requires: typing_extensions
Required-by:

四、使用方法

1.引入库

import PyPDF2

2.定义pdf路径

local = '/Users/kkstar/Downloads/'

3.打开PDF文件

with open(local+'demo.pdf', 'rb') as pdf_file:

4.创建PDF阅读器对象

pdf_reader = PyPDF2.PdfReader(pdf_file)

5.获取PDF文件中的页数

num_pages = len(pdf_reader.pages)

6.遍历每一页

for page_num in range(num_pages):

7.获取当前页内容

page = pdf_reader.pages[page_num]

8.提取当前页文本

page_text = page.extract_text()

9.打印当前页文本

print(page_text)

10.效果

大家好，我是空空star，这是第一页。
大家好，我是空空star，这是第二页。
大家好，我是空空star，这是第三页。
Process finished with exit code 0

总结

需要提取的pdf截图

来源地址：https://blog.csdn.net/weixin_38093452/article/details/130796365

您可能感兴趣的文档:

--结束END--

本文标题: 通过Python的PyPDF2库提取pdf中的文字

本文链接: https://lsjlt.com/news/402003.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

通过Python的PyPDF2库提取pdf中的文字

文章目录前言一、PyPDF2库是什么？二、安装PyPDF2库三、查看PyPDF2库版本四、使用方法1.引入库2.定义pdf路径3.打开PDF文件4.创建PDF阅读器对象5.获取PDF文件中的...

99+

2023-09-10

pdf 人工智能开发语言 python
通过Python的fitz库提取pdf中的图片

文章目录前言一、fitz库是什么？二、安装fitz库三、查看fitz库版本四、pymupdf库是什么？五、安装pymupdf库六、查看pymupdf库版本七、fitz和pymupdf是什么关...

99+

2023-08-31

python pdf 开发语言
通过Python的pdfplumber库提取pdf中表格数据

文章目录前言一、pdfplumber库是什么？二、安装pdfplumber库三、查看pdfplumber库版本四、提取pdf中表格数据1.引入库2.定义pdf文件路径3.打开pdf文件4.获...

99+

2023-09-05

python pdf 开发语言
python的PyPDF2实现pdf文件切割和合并

今天想使用pdf的切分软件实现pdf文件的切分，但是软件需要会员？？？好吧，，，，又要会员，这么简单的功能能难倒咱们程序员吗。俗话说自给自足丰衣足食，决定使用python自己切分文件...

99+

2024-04-02
通过Python的pytesseract库识别图片中的文字

文章目录前言一、pytesseract1.pytesseract是什么？2.安装pytesseract3.查看pytesseract版本4.安装PIL5.查看PIL版本二、Tesser...

99+

2023-09-12

python 人工智能计算机视觉图像处理
python的PyPDF2怎么实现pdf文件切割和合并

这篇文章将为大家详细讲解有关python的PyPDF2怎么实现pdf文件切割和合并，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。在百度了一番后，发现大多都是使用 Adobe Acrobat 软件进行剪裁，...

99+

2023-06-29
Python--从PDF中提取文本的方法总结

目录前言一、pdfplumber 二、pdfminer 三、fitz / pymupdf 四、性能对比前言这段时间做了好几个关于年报的需求，其中无一例外需要从年报PDF中提取文本再进行下一步的操作。为了提高效率，对...

99+

2023-09-03

python pdf 自动化
python怎么提取文字中的数字

你可以使用正则表达式或者循环结构来提取文字中的数字。方法一：使用正则表达式```pythonimport retext = "hel...

99+

2023-08-12

python
Python中怎么PDF文件提取数据

这篇文章将为大家详细讲解有关Python中怎么PDF文件提取数据，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。示例：使用Python从PDF文件中提取一个表格a) 将表复制到Excel并保存...

99+

2023-06-16
Python通过pytesseract库实现识别图片中的文字

目录前言一、pytesseract1.pytesseract是什么2.安装pytesseract3.查看pytesseract版本4.安装PIL5.查看PIL版本二、Tesserac...

99+

2023-05-19

Python pytesseract识别图片中文字 Python pytesseract识别文字 Python pytesseract
python怎么提取字符串中的文字

Python可以使用正则表达式或者字符串处理函数来提取字符串中的文字。以下是两种常见的方法：1. 使用正则表达式：可以使用`re`模...

99+

2023-08-26

python
Python实现PDF文字识别提取并写入CSV文件

目录1.前言2.需求描述3.开始动手动脑3.1安装相关第三方包3.2导入需要用到的第三方库3.3读取pdf文件，并识别内容3.4对识别的数据进行处理，写入csv文件总结1. 前言扫...

99+

2024-04-02
通过Python的speech_recognition库将声音转为文字

文章目录前言一、PortAudio1.PortAudio是什么？2.安装PortAudio 二、使用方法1.引入库2.创建一个Recognizer对象3.使用麦克风录音，从麦克风录制音频...

99+

2023-09-05

语音识别人工智能
通过Python的speech_recognition库将音频文件转为文字

目录前言一、音频准备二、音频声音三、格式转换四、音频转文字1.引入库2.定义音频路径3.创建一个Recognizer对象4.打开音频文件，将音频文件读入Recognizer对象5.尝...

99+

2023-05-20

Python音频文件转为文字 Python speech_recognition库
python怎么提取图片中的文字

要提取图片中的文字，可以使用Python的第三方库tesseract-ocr。Tesseract是一个开源的OCR引擎，可以识别多种...

99+

2023-08-12

python
Python提取PDF中的图片的实现示例

目录1.导入相关库2.具体实现2.1.使用正则表达式查找PDF中的图片2.2.打印PDF的相关信息2.3.遍历PDF中的对象，遇到是图像才进行下一步，不然就continue2.4.将...

99+

2024-04-02
如何通过Python的pyttsx3库将文字转为音频

目录前言一、pyttsx3是什么？二、安装pyttsx3三、查看pyttsx3版本四、pyttsx3的使用1.引入库2.定义需要转换的文本3.初始化pyttsx3引擎4.设置声音5....

99+

2023-05-16

Python 文字转为音频 Python的pyttsx3库
怎么通过Python的pyttsx3库将文字转为音频

本篇内容主要讲解“怎么通过Python的pyttsx3库将文字转为音频”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎么通过Python的pyttsx3库将文字转为音频”吧!一、pyttsx3是...

99+

2023-07-06
用Python提取PDF表格的方法

目录一、简单文本类型数据二、复杂型表格提取三、图片型表格提取大家好，从PDF中提取信息是办公场景中经常需要用到的操作，也是经常又读者在后台问的一个操作。内容少的话我们可以手动复制粘...

99+

2024-04-02
怎么用Python批量提取PDF中的信息

要使用Python批量提取PDF中的信息，可以使用Python的一个库叫做PyPDF2。下面是一个简单的例子，可以帮助你开始提取PD...

99+

2024-02-29

Python