返回顶部
首页 > 资讯 > 后端开发 > Python >python基于pyppeteer如何制作PDF文件
  • 149
分享到

python基于pyppeteer如何制作PDF文件

2023-06-13 06:06:02 149人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要讲解了“python基于pyppeteer如何制作pdf文件”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python基于pyppeteer如何制作PDF文件”吧!Pyppete

这篇文章主要讲解了“python基于pyppeteer如何制作pdf文件”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python基于pyppeteer如何制作PDF文件”吧!

Pyppeteer 是什么

介绍 Pyppeteer 之前,有必要先介绍一下 Puppeteer,Puppeteer 是谷歌官方出的一个通过DevTools协议控制headless Chrome的node库。通过Puppeteer可以直接控制Chrome浏览器模拟大部分用户操作。

所谓Headless Chrome 就是 Chrome 浏览器的无界面形态。

而 Pyppeteer 就是 Puppeteer 的 Python 版本非官方实现,它是一位来自于日本的工程师依据 Puppeteer 的一些功能开发出来的非官方版本

Pyppeteer 采用了 Python 的 async 机制,需要python3.5 及以上版本才支持。

Pyppeteer能做什么

但凡是需要通过Chrome浏览器手动完成的操作都可以通过 Pyppeteer 自动完成,例如:

  • 生成页面截图

  • 生成PDF文件

  • 抓取单页面应用并生成预先呈现的内容

  • 从网站抓取你需要的内容

  • 自动表单提交,UI测试,键盘输入等

截图

例如将页面生成截图可以直接调用 page.screenshot 方法

import asynciofrom pyppeteer import launchasync def main(): browser = await launch() page = await browser.newPage() await page.Goto('https://foofish.net') await page.screenshot({'path': 'example.png'}) await browser.close()asyncio.get_event_loop().run_until_complete(main())

截图功能在海报分享等场景用的多,有看过有赞工程师分享的一篇文章,就有用到Puppeteer来做海报分享,性能比canvas高。

而将网页转换为PDF的应用场景更多,比如将网站博客、专栏,或者公众号文章批量导出PDF,方便离线阅读,比如我们最近做的一个医疗项目需要将用户填写的资料支持PDF形式批量导出,就是用的Pyppeteer

导出PDF

导出pdf直接调用page.pdf方法就可以, 代码非常简洁

import asynciofrom pyppeteer import launchasync def main(): browser = await launch() page = await browser.newPage() await page.goto('Https://foofish.net') await page.pdf({  "path": "example.pdf", "fORMat": 'A4'}) await browser.close()asyncio.get_event_loop().run_until_complete(main())

接下来我们以公众号文章为例,将html页面制作成一个PDF文件。

公众号链接导出PDF示例

安装 pyppeteer

pip install pyppeteer

任意找一篇公众号的文章链接

 url = "https://mp.weixin.qq.com/s/6VBXs19icV0O5hT7cHYwgw"

完成代码:

 browser = await launch(  options={'headless': True,     'args': ['--no-sandbox',       '–disable-gpu',       '–disable-dev-shm-usage',       '–disable-setuid-sandbox',       '–no-first-run',       '–no-zygote',       '–single-process'       ]}, ) page = await browser.newPage() url = "https://mp.weixin.qq.com/s/6VBXs19icV0O5hT7cHYwgw" await page.goto(url) file_name = "test.pdf" await page.pdf({"path": file_name, "format": 'A4'}) await browser.close()

第一次运行的时候,会自动下载chromium浏览器,chromium是chrome的开源版本, 需要几分钟才能下载完

[W:pyppeteer.chromium_downloader] start chromium download.Download may take a few minutes.100%|██████████| 127496521/127496521 [00:20<00:00, 6268578.80it/s][W:pyppeteer.chromium_downloader] chromium download done.[W:pyppeteer.chromium_downloader] chromium extracted to: C:\Users\lzjun\AppData\Local\pyppeteer\pyppeteer\local-chromium\575458

执行完成后,我们来预览下pdf文件

python基于pyppeteer如何制作PDF文件

和原文链接对比,发现文章中的图片丢失了。

通过分析,原来是页面源代码中,img 标签没有src属性,只有个data-src 属性,默认情况下图片是无法正常显示的,图片之所有能在浏览器能正常展示出来,是有个js脚本动态地修改了dom元素为 <img src='xxxx'>

python基于pyppeteer如何制作PDF文件

这个网页使用的是一种叫懒加载的技术展示图片内容,所谓懒加载就是图片不会一次全部下载完,而是当前浏览到什么位置,就加载该处的图片,这样能提高页面的响应速度,同时减轻服务器性能。

所以,我们也可以通过js代码模拟真人浏览网页一样,滚动鼠标,不停地往下滑动,将图片动态加载出来。

最后,完整代码就变成了这样:

async def main():    browser = await launch()    page = await browser.newPage()    url = "https://mp.weixin.qq.com/s/6VBXs19icV0O5hT7cHYwgw"    await page.goto(url)    await page.evaluate('''async () => {                    await new                Promise((resolve, reject) => {                    var                totalHeight = 0;                var                distance = 100;                var                timer = setInterval(() => {                    var                scrollHeight = document.body.scrollHeight;                window.scrollBy(0, distance);                totalHeight += distance;                if (totalHeight >= scrollHeight){                clearInterval(timer);                resolve();                }                }, 100);                });        }''')    await page.pdf({        "path": "test.pdf", "format": 'A4'})    await browser.close()if __name__ == '__main__':    asyncio.get_event_loop().run_until_complete(main())

将js 代码封装成一个字符串当作参数传给 page.evaluate 函数, 该代码就是获不断滚动页面,直到页面底部为止。这样整个页面的图片就全部加载出来了。

效果看起来还不错,和原页面的样式是一样的

python基于pyppeteer如何制作PDF文件

感谢各位的阅读,以上就是“python基于pyppeteer如何制作PDF文件”的内容了,经过本文的学习后,相信大家对python基于pyppeteer如何制作PDF文件这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是编程网,小编将为大家推送更多相关知识点的文章,欢迎关注!

--结束END--

本文标题: python基于pyppeteer如何制作PDF文件

本文链接: https://lsjlt.com/news/266320.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python基于pyppeteer如何制作PDF文件
    这篇文章主要讲解了“python基于pyppeteer如何制作PDF文件”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“python基于pyppeteer如何制作PDF文件”吧!Pyppete...
    99+
    2023-06-13
  • python基于pyppeteer制作PDF文件
    目录Pyppeteer 是什么Pyppeteer能做什么截图导出PDF公众号链接导出PDF示例Pyppeteer 是什么 介绍 Pyppeteer 之前,有必要先介绍一下 Pupp...
    99+
    2024-04-02
  • 基于PyQt5制作一个PDF文件合并器
    操作说明:选择多个PDF文件,执行完合并后会生成一个新的PDF文件,这个新的PDF文件包含所有源PDF文件的页面。 将相关的三方模块导入到代码块中... from PyQt5.Qt...
    99+
    2024-04-02
  • 基于Python如何制作AI聊天软件
    这篇文章主要介绍“基于Python如何制作AI聊天软件”,在日常操作中,相信很多人在基于Python如何制作AI聊天软件问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”基于Python如何制作AI聊天软件”的疑...
    99+
    2023-07-02
  • 基于Python实现对PDF文件的OCR识别
    最近在做一个项目的时候,需要将PDF文件作为输入,从中输出文本,然后将文本存入数据库中。为此,我找寻了很久的解决方案,最终才确定使用tesseract。所以不要浪费时间了,我们开始吧。 1.安装tesser...
    99+
    2022-06-04
    文件 Python PDF
  • 基于Python制作一个文件去重小工具
    目录前言实现步骤补充前言 常常在下载网络素材时有很多的重复文件乱七八糟的,于是想实现一个去重的操作。 主要实现思路就是遍历出某个文件夹包括其子文件夹下面的所有文件,最后,将所有文件...
    99+
    2024-04-02
  • 基于Python制作一个文件解压缩工具
    经常由于各种压缩格式的不一样用到文件的解压缩时就需要下载不同的解压缩工具去处理不同的文件,以至于桌面上的压缩工具就有三四种,于是使用python做了一个包含各种常见格式的文件解压缩的...
    99+
    2024-04-02
  • 基于Python+OpenCV如何制作屏幕录制工具
    这篇文章跟大家分析一下“基于Python+OpenCV如何制作屏幕录制工具”。内容详细易懂,对“基于Python+OpenCV如何制作屏幕录制工具”感兴趣的朋友可以跟着小编的思路慢慢深入来阅读一下,希望阅读后能够对大家有所帮助。下面跟着小编...
    99+
    2023-06-26
  • 基于SpringBoot框架如何管理Excel和PDF文件类型
    这篇文章主要介绍基于SpringBoot框架如何管理Excel和PDF文件类型,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、文档类型简介1、Excel文档Excel一款电子表格软件。直观的界面、出色的计算功能和图...
    99+
    2023-06-02
  • 使用Python操作PDF文件
    从PDF读取文本内容和从已经有的文档生成新的PDF。 需要用到的模块是PyPDF2. mstamy2/PyPDF2: A utility to read and write PDFs...
    99+
    2024-04-02
  • 基于Python实现网页文章转PDF文档
    我们有时候看到一篇好的文章,想去保存下来,传统方式一般是收藏书签、复制粘贴到文档或者直接复制链接保存,但这样一次两次还好,数量多了,比较麻烦不说,还可能不好找~ 这个时候,Pyth...
    99+
    2024-04-02
  • 基于Python怎么制作一个文件解压缩工具
    经常由于各种压缩格式的不一样用到文件的解压缩时就需要下载不同的解压缩工具去处理不同的文件,以至于桌面上的压缩工具就有三四种,于是使用python做了一个包含各种常见格式的文件解压缩的小工具。常见的压缩格式主要是下面的四种格式:zip 格式的...
    99+
    2023-05-14
    Python
  • 基于Python制作一个文本翻译器
    translate非标准库是python中可以实现对多种语言进行互相翻译的库,使用时只需要设置目标语言(比如:中文、英文)后,会自动将原始文本翻译成我们需要的目标语言。 使用pip...
    99+
    2024-04-02
  • Java基于PDFbox实现读取处理PDF文件
    目录前言pdfbox介绍开发环境PDFbox依赖快速开始结语前言 嗨,大家好,2022年春节已经接近尾声,各地都陆陆续续开工了。近期有朋友做一个小项目正好使用Java读取PDF文件信...
    99+
    2024-04-02
  • PHP基于TCPDF第三方类生成PDF文件
    最近在研发招聘的系统 遇到了这个问题 转换pdf 折腾了很久 分享一下 PHP基于TCPDF第三方类生成PDF文件 最近遇到一个需求,需要根据数据库的字段生成表格式的PDF文件并发送邮箱 第一步、我们先去官网上面去下载tcpdf...
    99+
    2023-09-02
    pdf php Powered by 金山文档
  • 如何用python抓取网站教程并制作成PDF文档
    这篇文章主要介绍“如何用python抓取网站教程并制作成PDF文档”,在日常操作中,相信很多人在如何用python抓取网站教程并制作成PDF文档问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何用python...
    99+
    2023-06-04
  • 基于Python如何制作公交车站查询系统
    这篇文章给大家介绍基于Python如何制作公交车站查询系统,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。一、设计目的1、教学目的本课程设计是学生学习完《Python程序设计》课程后,进行的一次全面的综合训练,通过课程设...
    99+
    2023-06-26
  • Python实战之基于OpenCV的美颜挂件制作
    基于 Snapchat 的增强现实 胡子挂件融合 第一个项目中,我们将在检测到的脸上覆盖了一个小胡子。我们可以使用从摄像头捕获的连续视频帧,也可以使用单张测试图像。在进行实际讲解程序...
    99+
    2024-04-02
  • 基于node.js如何制作简单爬虫
    这篇文章主要为大家展示了“基于node.js如何制作简单爬虫”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“基于node.js如何制作简单爬虫”这篇文章吧。目标:...
    99+
    2024-04-02
  • 如何制作html文件
    HTML是网页编程中最基础的语言之一。它是一种标记语言,用于描述网页的结构和内容。跟着本文,你将学习到如何制作HTML文件。安装文本编辑器要编写HTML文件,你需要安装一个文本编辑器。有很多文本编辑器可供选择,例如Sublime Text、...
    99+
    2023-05-14
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作