返回顶部
首页 > 资讯 > 数据库 >[easou 数据库同步注册]宜搜全站数十万小说爬虫
  • 374
分享到

[easou 数据库同步注册]宜搜全站数十万小说爬虫

摘要

  自从看了师傅爬了顶点全站之后,我也手痒痒的,也想爬一个比较牛逼的小说网看看,于是选了宜搜这个网站,好了,马上开干,这次用的是moGodb数据库,感觉Mysql太麻烦了下图是我选择宜搜里面遍历的网站    Paste_Image.png 

[easou 数据库同步注册]宜搜全站数十万小说爬虫[数据库教程]

  自从看了师傅爬了顶点全站之后,我也手痒痒的,也想爬一个比较牛逼的小说网看看,于是选了宜搜这个网站,好了,马上开干,这次用的是moGodb数据库,感觉Mysql太麻烦了下图是我选择宜搜里面遍历的网站

  技术分享图片

  Paste_Image.png

  先看代码框架

  技术分享图片

  Paste_Image.png

  第一个,肯定先提取排行榜里面每个类别的链接啊,然后进入链接进行爬取,先看all_theme文件

  看看运行结果,这是书籍类目的

  技术分享图片

  Paste_Image.png

  这是构造出的每一个类目里面所有的页数链接,也是我们爬虫的入口,一共5000多页

  技术分享图片

  Paste_Image.png

  接下来是封装的数据库操作,因为用到了多进程以及多线程每个进程,他们需要知道那些URL爬取过了、哪些URL需要爬取!我们来给每个URL设置两种状态:

  outstanding:等待爬取的URL

  complete:爬取完成的URL

  processing:正在进行的URL。

  嗯!当一个所有初始的URL状态都为outstanding;当开始爬取的时候状态改为:processing;爬取完成状态改为:complete;失败的URL重置状态为:outstanding。为了能够处理URL进程被终止的情况、我们设置一个计时参数,当超过这个值时;我们则将状态重置为outstanding。

  接下来是爬虫主程序

  让我们来看看结果吧

  技术分享图片

  Paste_Image.png

  里面因为很多都是重复的,所有去重之后只有十几万本,好失望......

 数据库同步软件

[easou 数据库同步注册]宜搜全站数十万小说爬虫

原文:https://www.cnblogs.com/sqlserver-mysql/p/12762868.html

您可能感兴趣的文档:

--结束END--

本文标题: [easou 数据库同步注册]宜搜全站数十万小说爬虫

本文链接: https://lsjlt.com/news/5648.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作