使用PyCharm批量爬取小说的完整代码

2024-04-02 19:04:59 633人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

目录使用PyCharm批量爬取小说 1.获取小说地址2.分析小说地址结构3.拼接地址4.分析章节内容结构5.保存文本6.完整代码使用pycharm批量爬取小说爬取小说的思

使用pycharm批量爬取小说

爬取小说的思路：

1.获取小说地址

本文以搜书网一小说为例《嘘，梁上有王妃！》
目录网址：https://www.soshuw.com/XuLiangShangYouWangFei/
加载需要的包：


import re
from bs4 import BeautifulSoup as ds
import requests

获取小说目录文件，返回<Response [200]>，表示可正常爬取该网页


base_url='Https://www.soshuw.com/XuLiangShangYouWangFei/'
chapter_html=requests.get(base_url)
print(chapter_html)

2.分析小说地址结构

解析目录网页 , 输出结果为目录网页的源代码


chapter_page_html=ds(chapter_page,'lxml')
print(chapter_page)

打开目录网页，发现在正文的目录前面有一个最新章节目录（这里有九个章节），再完整的目录中是包含最新章节的，所以这里最新章节是不需要的。

在这里插入图片描述

在网页单击右键选择“检查”（或者“属性”，不同的浏览器的叫法不一致，我用的是IE）选择“元素”列，鼠标再右侧代码块上移动时。左侧网页会高亮显示其对应网页区域，找到完整目录对应的代码块。如下图：

在这里插入图片描述

完整目录的锚有两个，分别是class="novel_list"和id=“novel108799”,仔细观察后发现class不唯一，所以我们选用id提取该块内容

在这里插入图片描述

将完整目录块提取出来


chapter_novel=chapter_page.find(id="novel108799")
print(chapter_novel)

结果如下（仅部分结果）：

在这里插入图片描述

对比小说章节内容网址和目录网址（base_url）发现，我们只需要将base_url和章节内容网址的后半段拼接到一起就可以得到完整的章节内容网址

3.拼接地址

利用正则语言库将地址后半段提取出来


chapter_novel_str=str(chapter_novel)
regx = '<dd><a href="/XuLiangShangYouWangFei(.*?)"'
chapter_href_list = re.findall(regx, chapter_novel_str)
print(chapter_href_list)

拼接url:
定义一个列表chapter_url_list接收完整地址


chapter_url_list = []
for i in chapter_href_list:
 url=base_url+i
 chapter_url_list.append(url)
print(chapter_url_list)

4.分析章节内容结构

打开章节，右键→“属性”，查看内容结构，发现小说正文有class和id两个锚，class是不变的，id随着章节而变化，所以我们用class提取正文

在这里插入图片描述

提取正文段


chapter_novel=chapter_page.find(id="novel108799")
print(chapter_novel)

提取正文文本和标题


body_html=requests.get('https://www.soshuw.com/XuLiangShangYouWangFei/3647144.html')
body_page=ds(body_html.content,'lxml')
body = body_page.find(class_='content')
body_content=str(body)
print(body_content)
body_regx='<br/> (.*?)\n'
content_list=re.findall(body_regx,body_content)
print(content_list)
title_regx = '<h1>(.*?)</h1>'
title = re.findall(title_regx, body_html.text)
print(title)

5.保存文本


with open('1.txt', 'a+') as f:
 f.write('\n\n')
 f.write(title[0] + '\n')
 f.write('\n\n')
 for e in content_list:
  f.write(e + '\n')
print('{} 爬取完毕'.fORMat(title[0]))

6.完整代码


import re
from bs4 import BeautifulSoup as ds
import requests
base_url='https://www.soshuw.com/XuLiangShangYouWangFei'
chapter_html=requests.get(base_url)
chapter_page=ds(chapter_html.content,'lxml')
chapter_novel=chapter_page.find(id="novel108799")
#print(chapter_novel)
chapter_novel_str=str(chapter_novel)
regx = '<dd><a href="/XuLiangShangYouWangFei(.*?)"'
chapter_href_list = re.findall(regx, chapter_novel_str)
#print(chapter_href_list)
chapter_url_list = []
for i in chapter_href_list:
 url=base_url+i
 chapter_url_list.append(url)
#print(chapter_url_list)

for u in chapter_url_list:
 body_html=requests.get(u)
 body_page=ds(body_html.content,'lxml')
 body = body_page.find(class_='content')
 body_content=str(body)
 # print(body_content)
 body_regx='<br/> (.*?)\n'
 content_list=re.findall(body_regx,body_content)
 #print(content_list)
 title_regx = '<h1>(.*?)</h1>'
 title = re.findall(title_regx, body_html.text)
 #print(title)
 with open('1.txt', 'a+') as f:
  f.write('\n\n')
  f.write(title[0] + '\n')
  f.write('\n\n')
  for e in content_list:
   f.write(e + '\n')
 print('{} 爬取完毕'.format(title[0]))

到此这篇关于使用PyCharm批量爬取小说的文章就介绍到这了,更多相关PyCharm批量爬取小说内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: 使用PyCharm批量爬取小说的完整代码

本文链接: https://lsjlt.com/news/122924.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

使用PyCharm批量爬取小说的完整代码

目录使用pycharm批量爬取小说 1.获取小说地址2.分析小说地址结构3.拼接地址4.分析章节内容结构5.保存文本6.完整代码使用pycharm批量爬取小说爬取小说的思...

99+

2024-04-02
使用PyCharm怎么爬取小说

使用PyCharm怎么爬取小说？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。爬取小说的思路： 1.获取小说地址本文以搜书网一小说为例《嘘，梁上有王妃！》目录网址：...

99+

2023-06-14
Python爬虫教程使用Scrapy框架爬取小说代码示例

目录Scrapy框架简单介绍创建Scrapy项目创建Spider爬虫Spider爬虫提取数据items.py代码定义字段fiction.py代码提取数据pipelines.py代码保...

99+

2024-04-02
python中使用XPath爬取小说的方法

这篇“python中使用XPath爬取小说的方法”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“python中使用XPath爬...

99+

2023-06-30
使用PyCharm的批量缩进功能提高代码规范性

代码规范利器：PyCharm批量缩进功能的实际应用引言：在软件开发领域，代码规范是非常重要的一环。良好的代码规范不仅能提高代码的可读性和可维护性，还能减少潜在的bug。然而，在编写代码的过程中，经常会出现缩进不一致的问题，不仅影响代码的美观...

99+

2023-12-30

Pycharm 实际应用批量缩进
Python：使用爬虫抓取网页中的视频并下载（完整源码）

Python：使用爬虫抓取网页中的视频并下载（完整源码）在今天的程序开发世界中，网站是不可或缺的一部分。人们使用网站来获取有用的信息、购买商品和娱乐自己。这些网站的内容通常包含了各种类型的文件，其中...

99+

2023-08-31

python 爬虫音视频
提升代码结构整理速度：PyCharm的批量缩进技巧教学

批量缩进的神器：PyCharm教你快速整理代码结构引言：在软件开发过程中，良好的代码结构对于项目的可读性、可维护性和可扩展性至关重要。而在大型项目中，代码缩进的规范更是必不可少的。然而，手动调整代码的缩进很繁琐且容易出错。在这篇文章中，我们...

99+

2023-12-30

Pycharm 批量缩进代码结构整理
PyCharm教程：使用批量缩进提升代码可读性的方法

PyCharm教程：如何利用批量缩进提高代码可读性在编写代码的过程中，代码的可读性是非常重要的。良好的代码可读性不仅可以方便自己审查和修改代码，还可以便于他人理解和维护代码。在使用PyCharm这样的Python集成开发环境（IDE）时，内...

99+

2023-12-30

Pycharm 可读性批量缩进
Python使用5行代码批量做小姐姐的素描图

目录1. 流程分析2. 具体实现3. 百度图片爬虫+生成素描图我给大家带来的是 50行代码，生成一张素描图。让自己也是一个素描“大师”。那废话不多说，我们直接先来看看效果吧。上图的右边就是我们的效果，那具体有哪些...

99+

2022-06-02

Python 批量做素描图 Python 素描图
Vue+Openlayer使用modify修改要素的完整代码

Vue+Openlayer使用modify修改要素，具体内容如下所示： import { Modify } from "ol/in...

99+

2024-04-02
使用Python实现遗传算法的完整代码

目录遗传算法具体步骤：1.2 实验代码1.3 实验结果1.4 实验总结1、如何在算法中实现“优胜劣汰”？2 、如何保证进化一直是在正向进行？3、交叉如何实现？...

99+

2023-03-23

Python 遗传算法 python算法
使用Python实现小批量梯度下降算法的代码逻辑

让theta=模型参数和max_iters=时期数。对于itr=1,2,3,...,max_iters：对于mini_batch(X_mini,y_mini)：批量X_mini的前向传递： 1、对小批量进行预测 2、使用参数的当...

99+

2024-01-22

算法的概念
基于pdf2docx模块Python实现批量将PDF转Word文档的完整代码教程

PDF文件是一种常见的文档格式，但是在编辑和修改时不太方便，因为PDF本质上是一种静态的文档格式。因此，有时候我们需要将PDF文件转换成Word格式，以便更好地编辑和修改文档。在本...

99+

2023-05-15

pdf2docx模块 Python PDF Python PDF转Word
使用Python实现的遗传算法附完整代码

遗传算法是模仿自然界生物进化机制发展起来的随机全局搜索和优化方法，它借鉴了达尔文的进化论和孟德尔的遗传学说。其本质是一种高效、并行、全局搜索的方法，它能在搜索过程中自动获取和积累有关搜索空间的知识，并自适应的控制搜索过程以求得最优解。遗传算...

99+

2023-09-26

Python 遗传算法 flask Powered by 金山文档
微信小程序如何使用Promise对wx.request()封装详解(附完整代码)

目录1. 原生wx.request()的缺点2. 封装思路3. 具体实现代码总结1. 原生wx.request()的缺点 wx.request官网说明回调地狱，可能会出现多层suc...

99+

2023-03-13

微信小程序封装wx.request() 微信小程序封装请求微信小程序 wx.request()封装
shell脚本中使用iconv实现批量文件转码的代码分享

在开发中，我们经常需要对N多文件编码进行更改，iconv只能对单文件的进行更改，怎么办呢？我们写一个shell脚本来解决这个问题。例子一：使用shell脚本实现批量转码的操作。 #!/bin/sh ...

99+

2022-06-04

批量脚本代码
Python使用xlrd和xlwt批量读写excel文件的示例代码

目录一、使用xlrd对excel进行数据读取二、使用xlwt写入excel一、使用xlrd对excel进行数据读取 excel表格示例：安装xlrd库 pip install x...

99+

2024-04-02
react使用antd的上传组件实现文件表单一起提交功能(完整代码)

最近在刚刚开始使用react做项目，非常不熟练，非常小白。小白同学可以阅读了，因为我会写的非常简单，直白。项目中需要实现表单中带附件提交，上传文件不单独保存调接口。 impor...

99+

2024-04-02
php -【前后端完整源码】微信小程序抢红包功能 + 后端 PHP（thinkphp / lavale）完整对接逻辑代码，领取微信红包功能示例（详细示例源码及注释，一键复制开箱即用）！

效果图实现了 php 项目中，微信抢红包完整逻辑设计 + 前端微信小程序源码，超详细的注释及注意事项！你可以一键复制源码，手把手保证可用。准备阶段先来大致描述一下整体的流程，着急可以直接...

99+

2023-09-01

php thinkphp lavale tp实现微信领红包功能源码 lavale抢微信红包数据库设
微信小程序 - 超详细小程序接入腾讯地图的完整流程，提供地图显示、IP 属地定位、地理位置名称、获取经纬度等超多功能示例（可一键复制并运行的功能源代码，详细的注释及常见问题汇总）小白直接上手！

前言网上的教程代码太乱了，第一次接触的朋友极其难搞，更别说把功能改造移植到自己的项目中去。本文站在小白的角度，实现了微信小程序开发中，集成腾讯地图的详细流程及使用方法教程，提供了地图显示、I...

99+

2023-09-09

微信小程序详细接入使用腾讯地图小程序获取当前ip属地小程序定位获取城市名和经纬度小程序定位用户所在城市小程序使用腾讯地图教程小程序腾讯地图官方文档