返回顶部
首页 > 资讯 > 后端开发 > Python >Python怎么爬取csnd文章并转为PDF文件
  • 593
分享到

Python怎么爬取csnd文章并转为PDF文件

2023-06-22 07:06:29 593人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

今天就跟大家聊聊有关python怎么爬取csnd文章并转为pdf文件,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1.导入模块import requests #&

今天就跟大家聊聊有关python怎么爬取csnd文章并转为pdf文件,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

1.导入模块

import requests # 数据请求 发送请求 第三方模块 pip install requestsimport parsel # 数据解析模块 第三方模块 pip install parselimport os # 文件操作模块import re # 正则表达式模块import pdfkit # pip install pdfkit

2.创建文件夹

filename = 'pdf\\' # 文件名字filename_1 = 'html\\'if not os.path.exists(filename): #如果没有这个文件夹的话    os.mkdir(filename) # 自动创建一下这个文件夹if not os.path.exists(filename_1): #如果没有这个文件夹的话    os.mkdir(filename_1) # 自动创建一下这个文件夹

3.发送请求

for page in range(1, 11):    print(f'=================正在爬取第{page}页数据内容=================')    url = f'https://blog.csdn.net/qdPython/article/list/{page}'    # python代码对于服务器发送请求 >>> 服务器接收之后(如果没有伪装)被识别出来, 是爬虫程序, >>> 不会给你返回数据    # 客户端(浏览器) 对于 服务器发送请求 >>> 服务器接收到请求之后 >>> 浏览器返回一个response响应数据    # headers 请求头 就是把python代码伪装成浏览器进行请求    # headers参数字段 是可以在开发工具里面进行查询 复制    # 并不是所有的参数字段都是需要的    # user-agent: 浏览器的基本信息 (相当于披着羊皮的狼, 这样可以混进羊群里面)    # cookie: 用户信息 检测是否登录账号 (某些网站 是需要登录之后才能看到数据, B站一些数据内容)    # referer: 防盗链 请求你的网址 是从哪里跳转过来的 (B站视频内容 / 妹子图图片下载 / 唯品会商品数据)    # 根据不同的网站内容 具体情况 具体分析    headers = {        'user-agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'    }    # 请求方式: get请求 post请求 通过开发者工具可以查看url请求方式是什么样的    # 搜索 / 登录 /查询 这样是post请求    response = requests.get(url=url, headers=headers)

4.数据解析

# 需要把获取到的html字符串数据转成 selector 解析对象selector = parsel.Selector(response.text)# getall 返回的是列表href = selector.CSS('.article-list a::attr(href)').getall()

5.如果把列表里面每一个元素 都提取出来

for index in href:    # 发送请求 对于文章详情页url地址发送请求    response_1 = requests.get(url=index, headers=headers)    selector_1 = parsel.Selector(response_1.text)    title = selector_1.css('#articleContentId::text').get()    new_title = change_title(title)    content_views = selector_1.css('#content_views').get()    html_content = html_str.fORMat(article=content_views)    html_path = filename_1 + new_title + '.html'    pdf_path = filename + new_title + '.pdf'    with open(html_path, mode='w', encoding='utf-8') as f:        f.write(html_content)        print('正在保存: ', title)

6.替换特殊字符

def change_title(name):    mode = re.compile(r'[\\\/\:\*\?\"\<\>\|]')    new_name = re.sub(mode, '_', name)    return new_name

运行代码,即可下载HTML文件:

Python怎么爬取csnd文章并转为PDF文件

7.转换成PDF文件

config = pdfkit.configuration(wkhtmltopdf=r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe')pdfkit.from_file(html_path, pdf_path, configuration=config)

Python怎么爬取csnd文章并转为PDF文件

看完上述内容,你们对Python怎么爬取csnd文章并转为PDF文件有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注编程网Python频道,感谢大家的支持。

--结束END--

本文标题: Python怎么爬取csnd文章并转为PDF文件

本文链接: https://lsjlt.com/news/303379.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python爬取csnd文章并转为PDF文件
    目录1.导入模块2.创建文件夹3.发送请求4.数据解析5.如果把列表里面每一个元素 都提取出来6.替换特殊字符7.转换成PDF文件本篇文章流程(爬虫基本思路): 数据来源分析 (只有...
    99+
    2024-04-02
  • Python怎么爬取csnd文章并转为PDF文件
    今天就跟大家聊聊有关Python怎么爬取csnd文章并转为PDF文件,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1.导入模块import requests #&...
    99+
    2023-06-22
  • python爬取微信公众号文章图片并转为PDF
    遇到那种有很多图的微信公众号文章咋办?一个一个存很麻烦,应朋友的要求自己写了个爬虫。2.0版本完成了!完善了生成pdf的功能,可根据图片比例自动调节大小,防止超出页面范围,增加了序号...
    99+
    2024-04-02
  • Python中怎么将Office文件转为PDF
    这篇文章将为大家详细讲解有关Python中怎么将Office文件转为PDF,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。安装 win32com在实战之前,需要安装 Python 的 win3...
    99+
    2023-06-16
  • Python怎么将pdf转为图片?Python如何实现pdf文件转图片
    而pdf则是用来保存一些内容已经确定好的数据,因为pdf是无法直接修改内容的,所以也会经常将pdf转为图片来保存。本文就将会来介绍一下pdf转图片的方法,往下看看吧。 1.pdf转图片的话主要实现所需要的模块叫做PyMuPDF,它就是用来...
    99+
    2023-09-02
    python Powered by 金山文档
  • Python怎么将Office文件转PDF
    本篇内容介绍了“Python怎么将Office文件转PDF”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!安装 win32com在实战之前,需...
    99+
    2023-06-27
  • 怎么用Python爬取7日热门的文章
    怎么用Python爬取7日热门的文章,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。前言相信大家都很喜欢看那种非常热门并且很好的文章,这种文章往往耐人寻味,有理有据,语句畅通...
    99+
    2023-06-02
  • php怎么将Excel文件转为PDF格式
    随着互联网的飞速发展,越来越多的企业和个人开始使用网络来处理和存储各种数据。在这个背景下,各种数据格式的转换变得越来越重要,其中将Excel文件转换为PDF格式的需求也日益增加。作为一种流行的编程语言,PHP不仅可以处理网页开发和服务器端编...
    99+
    2023-05-14
  • python怎么将读取文件转为字典
    要将读取的文件转为字典,可以按照以下步骤进行操作:1. 打开文件并读取内容:pythonwith open('file.txt', ...
    99+
    2023-10-18
    python
  • Python中怎么PDF文件提取数据
    这篇文章将为大家详细讲解有关Python中怎么PDF文件提取数据,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。示例:使用Python从PDF文件中提取一个表格a) 将表复制到Excel并保存...
    99+
    2023-06-16
  • PDF文件怎么转换EXCEL
    这篇文章主要为大家展示了“PDF文件怎么转换EXCEL”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“PDF文件怎么转换EXCEL”这篇文章吧。将PDF文件转换器成EXCEL文件格式。在手机应用市...
    99+
    2023-06-05
  • Python实现PDF文字识别提取并写入CSV文件
    目录1.前言2.需求描述3.开始动手动脑3.1安装相关第三方包3.2导入需要用到的第三方库3.3读取pdf文件,并识别内容3.4对识别的数据进行处理,写入csv文件总结1. 前言 扫...
    99+
    2024-04-02
  • php怎么读取txt文件并将其转为数组
    PHP是非常灵活的编程语言,它可以读取和处理各种不同类型的文件。当我们需要读取一个文本文件并将其转换为数组时,使用PHP是非常方便的。在本文中,我们将讨论如何使用PHP读取文本文件并将其转换为数组。我们将从以下几个方面入手:打开文本文件读取...
    99+
    2023-05-14
    php php文件目录
  • 如何利用Python将html转为pdf、word文件
    目录前言转 pdf安装 pdfkit 库安装 wkhtmltopdf 文件url 生成 pdf本地 html 文件生成 pdf转 word安装 pypandoc 库安装 pandoc...
    99+
    2022-12-19
    python将html转pdf python将html转word python pdf处理
  • Python读取hdf文件并转化为tiff格式输出
    目录1.Python3读取hdf文件2.使用Python2读取hdf文件3. 如何使Python2和3兼容3.1 修改Python2.7的名字3.2 pip更新3.2 使用pip2下...
    99+
    2024-04-02
  • 手机html文件怎么转换成pdf文件
    直接转换:使用浏览器内置工具(chrome、firefox)的“另存为 pdf”选项。使用在线转换工具,如 html to pdf converter 或 cloudconvert。通过...
    99+
    2024-04-05
    python office
  • windows中CEB怎么转PDF文件
    今天小编给大家分享一下windows中CEB怎么转PDF文件的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。CEB转PDF文件...
    99+
    2023-07-01
  • Python提取PDF指定内容并生成新文件
    在之前的Python办公自动化案专题中,我们已经介绍了如何有选择的提取某些页面进行合并。 但是很多时候,我们并不会预知希望提取的页号,而是希望将包含指定内容的页面提取合并为新PDF,...
    99+
    2024-04-02
  • php怎么将word文档转成PDF文件
    在如今数字化的时代,文档转换成PDF(Portable Document Format)是十分常见的需求,因为PDF是一种跨平台、适用于多种设备和操作系统的文件格式,具有良好的兼容性和可靠的可读性。而php作为一种强大的服务器端编程语言,可...
    99+
    2023-05-14
    php
  • php怎么读取远程xml文件并转化为数组
    本文操作环境:Windows7系统、PHP7.1版、DELL G3电脑php怎么读取远程xml文件并转化为数组?PHP读取远程xml文件并转化为数组: 远程文件如下:http://api.wycq.521g.com/game/mrt_...
    99+
    2017-06-28
    php xml
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作