返回顶部
首页 > 资讯 > 后端开发 > Python >Python对PDF文件的常用操作方法详解
  • 631
分享到

Python对PDF文件的常用操作方法详解

2024-04-02 19:04:59 631人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

目录工具从pdf中提取文本旋转和叠加页面加密PDF文件创建PDF文件补充工具 python3.7 PyCharm PDF PyPDF2 reportlab 从PDF中提取文本 PyP

工具

python3.7

PyCharm

PDF

PyPDF2

reportlab

从PDF中提取文本

PyPDF2没有办法从PDF文档中提取图像、图表或其他媒体,但它可以提取文本,并将其返回为python字符串

import PyPDF2

reader = PyPDF2.PdfFileReader('test.pdf')
page = reader.getPage(0)
print(page.extractText())

旋转和叠加页面

上面的代码中通过创建PdfFileReader对象的方式来读取PDF文档,该对象的getPage方法可以获得PDF文档的指定页并得到一个PageObject对象,通过PageObject对象的rotateClockwise和rotateCounterClockwise方法可以实现页面的顺时针和逆时针方向旋转,通过PageObject对象的addBlankPage方法可以添加一个新的空白页,代码如下所示。

import PyPDF2

from PyPDF2.pdf import PageObject

# 创建一个读PDF文件的Reader对象
reader = PyPDF2.PdfFileReader('resources/xxx.pdf')
# 创建一个写PDF文件的Writer对象
writer = PyPDF2.PdfFileWriter()
# 对PDF文件所有页进行循环遍历
for page_num in range(reader.numPages):
    # 获取指定页码的Page对象
    current_page = reader.getPage(page_num)  # type: PageObject
    if page_num % 2 == 0:
        # 奇数页顺时针旋转90度
        current_page.rotateClockwise(90)
    else:
        # 偶数页反时针旋转90度
        current_page.rotateCounterClockwise(90)
    writer.addPage(current_page)
# 最后添加一个空白页并旋转90度
page = writer.addBlankPage()  # type: PageObject
page.rotateClockwise(90)
# 通过Writer对象的write方法将PDF写入文件
with open('resources/xxx.pdf', 'wb') as file:
    writer.write(file)

加密PDF文件

使用PyPDF2中的PdfFileWrite对象可以为PDF文档加密,如果需要给一系列的PDF文档设置统一的访问口令,使用Python程序来处理就会非常的方便。

import PyPDF2

reader = PyPDF2.PdfFileReader('resources/XGBoost.pdf')
writer = PyPDF2.PdfFileWriter()
for page_num in range(reader.numPages):
    writer.addPage(reader.getPage(page_num))
# 通过encrypt方法加密PDF文件,方法的参数就是设置的密码
writer.encrypt('foobared')
with open('resources/XGBoost-encrypted.pdf', 'wb') as file:
    writer.write(file)

创建PDF文件

创建PDF文档需要三方库reportlab的支持,使用 pip install reportlab 命令安装

from reportlab.lib.pagesizes import A4
from reportlab.pdfbase import pdfmetrics
from reportlab.pdfbase.ttfonts import TTFont
from reportlab.pdfgen import canvas

pdf_canvas = canvas.Canvas('resources/python创建.pdf', pagesize=A4)
width, height = A4

# 绘图
image = canvas.ImageReader('resources/xxx.jpg')
pdf_canvas.drawImage(image, 20, height - 395, 250, 375)

# 显示当前页
pdf_canvas.showPage()

# 注册字体文件
pdfmetrics.reGISterFont(TTFont('Font1', 'resources/fonts/Vera.ttf'))
pdfmetrics.registerFont(TTFont('Font2', 'resources/fonts/青呱石头体.ttf'))

# 写字
pdf_canvas.setFont('Font2', 40)
pdf_canvas.setFillColorRGB(0.9, 0.5, 0.3, 1)
pdf_canvas.drawString(width // 2 - 120, height // 2, '你好,世界!')
pdf_canvas.setFont('Font1', 40)
pdf_canvas.setFillColorRGB(0, 1, 0, 0.5)
pdf_canvas.rotate(18)
pdf_canvas.drawString(250, 250, 'hello, world!')

# 保存
pdf_canvas.save()

补充

合并PDF

from PyPDF2 import PdfFileReader, PdfFileWriter

def merge_pdfs(paths, output):
 pdf_writer = PdfFileWriter()
 for path in paths:
  pdf_reader = PdfFileReader(path)
  for page in range(pdf_reader.getNumPages()):
   # 将每页添加到writer对象
   pdf_writer.addPage(pdf_reader.getPage(page))
 # 写入合并的pdf
 with open(output, 'wb') as out:
  pdf_writer.write(out)
if __name__ == '__main__':
 paths = ['document1.pdf', 'document2.pdf']
 merge_pdfs(paths, output='merged.pdf')

添加水印

from PyPDF2 import PdfFileWriter, PdfFileReader
def create_watermark(input_pdf, output, watermark):
 watermark_obj = PdfFileReader(watermark)
 watermark_page = watermark_obj.getPage(0)
 pdf_reader = PdfFileReader(input_pdf)
 pdf_writer = PdfFileWriter()
 # 给所有页面添加水印
 for page in range(pdf_reader.getNumPages()):
  page = pdf_reader.getPage(page)
  page.mergePage(watermark_page)
  pdf_writer.addPage(page)
 with open(output, 'wb') as out:
  pdf_writer.write(out)
if __name__ == '__main__':
 create_watermark(
  input_pdf='Jupyter_Notebook_An_Introduction.pdf', 
   output='watermarked_notebook.pdf',
  watermark='watermark.pdf')

到此这篇关于Python对PDF文件的常用操作方法详解的文章就介绍到这了,更多相关Python操作PDF内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python对PDF文件的常用操作方法详解

本文链接: https://lsjlt.com/news/118252.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python对PDF文件的常用操作方法详解
    目录工具从PDF中提取文本旋转和叠加页面加密PDF文件创建PDF文件补充工具 python3.7 Pycharm PDF PyPDF2 reportlab 从PDF中提取文本 PyP...
    99+
    2024-04-02
  • Python对PDF文件的常用操作方法有哪些
    这篇文章主要介绍“Python对PDF文件的常用操作方法有哪些”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python对PDF文件的常用操作方法有哪些”文章能帮助大家解决问题。工具python3....
    99+
    2023-06-30
  • 使用Python操作PDF文件
    从PDF读取文本内容和从已经有的文档生成新的PDF。 需要用到的模块是PyPDF2. mstamy2/PyPDF2: A utility to read and write PDFs...
    99+
    2024-04-02
  • Python自动操作Excel文件的方法详解
    目录工具读取Excel文件内容写入Excel文件内容Excel文件样式调整设置表头的位置设置单元格的宽高总结工具 python3.7 Pycharm Excel xlwt&x...
    99+
    2024-04-02
  • Python常见文件操作的示例详解
    目录从文件中读取数据为什么要提供文件路径逐行读取创建一个包含文件各行内容的列表使用文件中的内容包含千位以上的大型文件圆周率中包含你的生日吗写入文件附加到文件从文件中读取数据 1:读取...
    99+
    2024-04-02
  • python文件常用操作方法有哪些
    文件的一般操作步骤打开文件或创建新文件:使用相应的编程语言和对应的库或模块打开一个已经存在的文件或者创建新文件。读取文件内容或向文件中写入内容:通过读取文件内容或向文件中写入内容来实现对文件的操作,可以使用相应的方法和函数来实现。处理文件数...
    99+
    2023-05-20
    Python
  • python之PyPDF2:操作PDF文档示例详解
    PyPDF2是一个用于处理PDF文档的Python库。它提供了一系列的功能,使我们能够读取、修改和创建PDF文件。本文将详细介绍PyPDF2库的使用示例,包括读取文档信息、提取文本内容、合并和拆分文档以及添加水印等操作。 首先,我们需要安装...
    99+
    2023-09-02
    python 数据库 开发语言 pip
  • python文件操作详解
    文件操作是编程中必不可少的,配置文件,数据存储都是对文件操作;按文件操作与格式主要内容如下图: 文件基本操作为打开,读取,写入,关闭,我们按这个过程来详解讲解。 1.一个例子搞定打开,读取与关闭: 准备工作: 1>新建文件:E:\w...
    99+
    2023-01-31
    详解 操作 文件
  • C#操作INI文件的方法详解
    目录INI文件介绍kernel32Demo案例实现功能程序代码扩展作用本文主要介绍通过调用kernel32函数,实现对ini文件的读取和写入。 INI文件介绍 INI文件全称是Ini...
    99+
    2022-11-13
    C#操作INI文件 C#操作INI C# INI文件
  • Python文件目录操作常用模块的使用详解
    目录1. os模块1.1 获取系统信息1.2  工作目录与路径相关的操作1.3 判断是否文件或目录以及指定文件目录是否存在1.5 串连创建或者分离一个文件目录路径1.6 执...
    99+
    2024-04-02
  • 详解python文件的操作和异常的处理
    目录一、 文件的操作1.1创建文件1.2写入数据1.3读数据1.4 2读数据1.5读写数据1.6删除文件 1.7写入文件1.8读取图片 1.9备份图片1.10文件重命名1.11创建文...
    99+
    2024-04-02
  • Python文件操作的方法
    目录1.文件的概念1.1文件的概念和作用1.2文件的存储方式2.文件的基本操作2.1操作文件的套路2.2操作文件的函数/方法2.3read方法——读取文件2.4打开文件的方式2.5按...
    99+
    2024-04-02
  • python对文件的操作
    python对文件的操作创建与打开对文件的读写操作对文件的复制,删除,重命名等操作举例说明python打开一个文件可以用open或file>>> fo=open('./12.txt')>>> fo.rea...
    99+
    2023-01-31
    操作 文件 python
  • python 对文件的操作
    python对文件的操作    打开文件的方式:    r :  读数据  默认方式;    w :  只写,打开文件之前重写这个文件,打开文件的同时把文件清空;    a :   以追加的方式写在文件最后,因为指针在最后;    + : ...
    99+
    2023-01-31
    操作 文件 python
  • 详解Python中的文件操作
    1.能调用方法的一定是对象,比如数值、字符串、列表、元组、字典,甚至文件也是对象,Python中一切皆为对象。 str1 = 'hello' str2 = 'world' str3 = ' '.j...
    99+
    2022-06-04
    详解 操作 文件
  • Python中文件操作的常见问题及解决方法
    Python中文件操作的常见问题及解决方法摘要:文件操作是Python编程中非常常见的任务之一。然而,有时会遇到一些常见的问题,如文件不存在、文件写入错误等。本文将介绍一些常见问题,并提供相应的解决方法和代码示例。一、文件操作的常见问题文件...
    99+
    2023-10-22
    文件读取问题 文件写入问题 文件路径问题
  • 文件操作:Python 中的常见问题及解决方法
    在 Python 中,文件操作是非常常见的一种操作,我们可以通过打开文件、读取文件、写入文件等操作来对文件进行处理。但是在实际使用中,我们可能会遇到一些问题,例如文件不存在、文件权限不足等问题。本文将介绍 Python 中文件操作的常见问...
    99+
    2023-07-30
    数组 文件 ide
  • 关于C#操作文件路径(Directory)的常用静态方法详解
    目录Directory:创建文件夹删除文件夹获取文件夹下的子文件夹获取同类型的文件判断文件夹是否存在移动文件夹总结之前发过File对文件的操作 C# (File方法)对文件的操作,字...
    99+
    2024-04-02
  • python中文件操作与异常的处理图文详解
    目录一、 文件的操作1.1创建文件1.2写入数据1.3读数据1.4读数据1.5读写数据1.6删除文件1.6写入文件1.7读取图片1.8备份图片1.9文件重命名1.10创建文件夹1.1...
    99+
    2024-04-02
  • 详解Python读取和写入操作CSV文件的方法
    目录什么是 CSV 文件?内置 CSV 库解析 CSV 文件读取 CSV 文件csv将 CSV 文件读入字典csv可选的 Python CSV reader参数使用 csv 写入文件...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作