Python怎么爬取csnd文章并转为PDF文件

2023-06-22 07:06:29 593人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

今天就跟大家聊聊有关python怎么爬取csnd文章并转为pdf文件，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。1.导入模块import requests #&

今天就跟大家聊聊有关python怎么爬取csnd文章并转为pdf文件，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

1.导入模块

import requests # 数据请求 发送请求 第三方模块 pip install requestsimport parsel # 数据解析模块 第三方模块 pip install parselimport os # 文件操作模块import re # 正则表达式模块import pdfkit # pip install pdfkit

2.创建文件夹

filename = 'pdf\\' # 文件名字filename_1 = 'html\\'if not os.path.exists(filename): #如果没有这个文件夹的话    os.mkdir(filename) # 自动创建一下这个文件夹if not os.path.exists(filename_1): #如果没有这个文件夹的话    os.mkdir(filename_1) # 自动创建一下这个文件夹

3.发送请求

for page in range(1, 11):    print(f'=================正在爬取第{page}页数据内容=================')    url = f'https://blog.csdn.net/qdPython/article/list/{page}'    # python代码对于服务器发送请求 >>> 服务器接收之后(如果没有伪装)被识别出来, 是爬虫程序, >>> 不会给你返回数据    # 客户端(浏览器) 对于 服务器发送请求 >>> 服务器接收到请求之后 >>> 浏览器返回一个response响应数据    # headers 请求头 就是把python代码伪装成浏览器进行请求    # headers参数字段 是可以在开发者工具里面进行查询 复制    # 并不是所有的参数字段都是需要的    # user-agent: 浏览器的基本信息 (相当于披着羊皮的狼, 这样可以混进羊群里面)    # cookie: 用户信息 检测是否登录账号 (某些网站 是需要登录之后才能看到数据, B站一些数据内容)    # referer: 防盗链 请求你的网址 是从哪里跳转过来的 (B站视频内容 / 妹子图图片下载 / 唯品会商品数据)    # 根据不同的网站内容 具体情况 具体分析    headers = {        'user-agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'    }    # 请求方式: get请求 post请求 通过开发者工具可以查看url请求方式是什么样的    # 搜索 / 登录 /查询 这样是post请求    response = requests.get(url=url, headers=headers)

4.数据解析

# 需要把获取到的html字符串数据转成 selector 解析对象selector = parsel.Selector(response.text)# getall 返回的是列表href = selector.CSS('.article-list a::attr(href)').getall()

5.如果把列表里面每一个元素都提取出来

for index in href:    # 发送请求 对于文章详情页url地址发送请求    response_1 = requests.get(url=index, headers=headers)    selector_1 = parsel.Selector(response_1.text)    title = selector_1.css('#articleContentId::text').get()    new_title = change_title(title)    content_views = selector_1.css('#content_views').get()    html_content = html_str.fORMat(article=content_views)    html_path = filename_1 + new_title + '.html'    pdf_path = filename + new_title + '.pdf'    with open(html_path, mode='w', encoding='utf-8') as f:        f.write(html_content)        print('正在保存: ', title)

6.替换特殊字符

def change_title(name):    mode = re.compile(r'[\\\/\:\*\?\"\<\>\|]')    new_name = re.sub(mode, '_', name)    return new_name

运行代码，即可下载HTML文件：

Python怎么爬取csnd文章并转为PDF文件

7.转换成PDF文件

config = pdfkit.configuration(wkhtmltopdf=r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe')pdfkit.from_file(html_path, pdf_path, configuration=config)

Python怎么爬取csnd文章并转为PDF文件

看完上述内容，你们对Python怎么爬取csnd文章并转为PDF文件有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注编程网Python频道，感谢大家的支持。

您可能感兴趣的文档:

--结束END--

本文标题: Python怎么爬取csnd文章并转为PDF文件

本文链接: https://lsjlt.com/news/303379.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Python爬取csnd文章并转为PDF文件

目录1.导入模块2.创建文件夹3.发送请求4.数据解析5.如果把列表里面每一个元素都提取出来6.替换特殊字符7.转换成PDF文件本篇文章流程(爬虫基本思路): 数据来源分析 (只有...

99+

2024-04-02
Python怎么爬取csnd文章并转为PDF文件

今天就跟大家聊聊有关Python怎么爬取csnd文章并转为PDF文件，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。1.导入模块import requests #&...

99+

2023-06-22
python爬取微信公众号文章图片并转为PDF

遇到那种有很多图的微信公众号文章咋办？一个一个存很麻烦，应朋友的要求自己写了个爬虫。2.0版本完成了！完善了生成pdf的功能，可根据图片比例自动调节大小，防止超出页面范围，增加了序号...

99+

2024-04-02
Python中怎么将Office文件转为PDF

这篇文章将为大家详细讲解有关Python中怎么将Office文件转为PDF，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。安装 win32com在实战之前，需要安装 Python 的 win3...

99+

2023-06-16
Python怎么将pdf转为图片？Python如何实现pdf文件转图片

而pdf则是用来保存一些内容已经确定好的数据，因为pdf是无法直接修改内容的，所以也会经常将pdf转为图片来保存。本文就将会来介绍一下pdf转图片的方法，往下看看吧。 1.pdf转图片的话主要实现所需要的模块叫做PyMuPDF，它就是用来...

99+

2023-09-02

python Powered by 金山文档
Python怎么将Office文件转PDF

本篇内容介绍了“Python怎么将Office文件转PDF”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！安装 win32com在实战之前，需...

99+

2023-06-27
怎么用Python爬取7日热门的文章

怎么用Python爬取7日热门的文章，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。前言相信大家都很喜欢看那种非常热门并且很好的文章，这种文章往往耐人寻味，有理有据，语句畅通...

99+

2023-06-02
php怎么将Excel文件转为PDF格式

随着互联网的飞速发展，越来越多的企业和个人开始使用网络来处理和存储各种数据。在这个背景下，各种数据格式的转换变得越来越重要，其中将Excel文件转换为PDF格式的需求也日益增加。作为一种流行的编程语言，PHP不仅可以处理网页开发和服务器端编...

99+

2023-05-14
python怎么将读取文件转为字典

要将读取的文件转为字典，可以按照以下步骤进行操作：1. 打开文件并读取内容：pythonwith open('file.txt', ...

99+

2023-10-18

python
Python中怎么PDF文件提取数据

这篇文章将为大家详细讲解有关Python中怎么PDF文件提取数据，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。示例：使用Python从PDF文件中提取一个表格a) 将表复制到Excel并保存...

99+

2023-06-16
PDF文件怎么转换EXCEL

这篇文章主要为大家展示了“PDF文件怎么转换EXCEL”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“PDF文件怎么转换EXCEL”这篇文章吧。将PDF文件转换器成EXCEL文件格式。在手机应用市...

99+

2023-06-05
Python实现PDF文字识别提取并写入CSV文件

目录1.前言2.需求描述3.开始动手动脑3.1安装相关第三方包3.2导入需要用到的第三方库3.3读取pdf文件，并识别内容3.4对识别的数据进行处理，写入csv文件总结1. 前言扫...

99+

2024-04-02
php怎么读取txt文件并将其转为数组

PHP是非常灵活的编程语言，它可以读取和处理各种不同类型的文件。当我们需要读取一个文本文件并将其转换为数组时，使用PHP是非常方便的。在本文中，我们将讨论如何使用PHP读取文本文件并将其转换为数组。我们将从以下几个方面入手：打开文本文件读取...

99+

2023-05-14

php php文件目录
如何利用Python将html转为pdf、word文件

目录前言转 pdf安装 pdfkit 库安装 wkhtmltopdf 文件url 生成 pdf本地 html 文件生成 pdf转 word安装 pypandoc 库安装 pandoc...

99+

2022-12-19

python将html转pdf python将html转word python pdf处理
Python读取hdf文件并转化为tiff格式输出

目录1.Python3读取hdf文件2.使用Python2读取hdf文件3. 如何使Python2和3兼容3.1 修改Python2.7的名字3.2 pip更新3.2 使用pip2下...

99+

2024-04-02
手机html文件怎么转换成pdf文件

直接转换：使用浏览器内置工具（chrome、firefox）的“另存为 pdf”选项。使用在线转换工具，如 html to pdf converter 或 cloudconvert。通过...

99+

2024-04-05

python office
windows中CEB怎么转PDF文件

今天小编给大家分享一下windows中CEB怎么转PDF文件的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。CEB转PDF文件...

99+

2023-07-01
Python提取PDF指定内容并生成新文件

在之前的Python办公自动化案专题中，我们已经介绍了如何有选择的提取某些页面进行合并。但是很多时候，我们并不会预知希望提取的页号，而是希望将包含指定内容的页面提取合并为新PDF，...

99+

2024-04-02
php怎么将word文档转成PDF文件

在如今数字化的时代，文档转换成PDF(Portable Document Format)是十分常见的需求，因为PDF是一种跨平台、适用于多种设备和操作系统的文件格式，具有良好的兼容性和可靠的可读性。而php作为一种强大的服务器端编程语言，可...

99+

2023-05-14

php
php怎么读取远程xml文件并转化为数组

本文操作环境：Windows7系统、PHP7.1版、DELL G3电脑php怎么读取远程xml文件并转化为数组？PHP读取远程xml文件并转化为数组：远程文件如下：http://api.wycq.521g.com/game/mrt_...

99+

2017-06-28

php xml