Python爬虫基础之简单说一下scrapy的框架结构

scrapy的框架结构 Python scrapy 2022-06-02 22:06:46 804人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

scrapy 框架结构思考 scrapy 为什么是框架而不是库? scrapy是如何工作的? 项目结构在开始爬取之前，必须创建一个新的Scrapy项目。进入您打算存储代码的目录

scrapy 框架结构

思考

scrapy 为什么是框架而不是库?
scrapy是如何工作的?

项目结构

在开始爬取之前，必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令:

注意:创建项目时，会在当前目录下新建爬虫项目的目录。

这些文件分别是:

scrapy.cfg:项目的配置文件
quotes/:该项目的python模块。之后您将在此加入代码
quotes/items.py:项目中的item文件
quotes/middlewares.py:爬虫中间件、下载中间件(处理请求体与响应体)
quotes/pipelines.py:项目中的pipelines文件
quotes/settings.py:项目的设置文件
quotes/spiders/:放置spider代码的目录

Scrapy原理图

各个组件的介绍

Engine。引擎,处理整个系统的数据流处理、触发事务,是整个框架的核心。

ltem。项目,它定义了爬取结果的数据结构,爬取的数据会被赋值成该ltem对象。

Scheduler。调度器,接受引擎发过来的请求并将其加入队列中,在引擎再次请求的时候将请求提供给引擎。

Downloader。下载器,下载网页内容,并将网页内容返回给蜘蛛。

Spiders。蜘蛛,其内定义了爬取的逻辑和网页的解析规则,它主要负责解析响应并生成提结果和新的请求。

Item Pipeline。项目管道,负责处理由蜘蛛从网页中抽取的项目,它的主要任务是清洗、验证和存储数据。

Downloader Middlewares。下载器中间件,位于引擎和下载器之间的钩子框架,主要处理引擎与下载器之间的请求及响应。

Spider Middlewares。蜘蛛中间件,位于引擎和蜘蛛之间的钩子框架,主要处理蜘蛛输入的响应和输出的结果及新的请求。

数据的流动

Scrapy Engine(引擎):负责Spider、ltemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器):负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider(爬虫)?负责处理所有Responses,从中分析提取数据，获取ltem字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，
ltem Pipeline(管道):负责处理Spider中获取到的ltem，并进行进行后期处理(详细分析、过滤、存储等）的地方.
Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests)

到此这篇关于python爬虫基础之简单说一下scrapy的框架结构的文章就介绍到这了,更多相关scrapy的框架结构内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: Python爬虫基础之简单说一下scrapy的框架结构

本文链接: https://lsjlt.com/news/11054.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Python爬虫基础之简单说一下scrapy的框架结构

scrapy 框架结构思考 scrapy 为什么是框架而不是库? scrapy是如何工作的? 项目结构在开始爬取之前，必须创建一个新的Scrapy项目。进入您打算存储代码的目录...

99+

2022-06-02

scrapy的框架结构 Python scrapy
Python爬虫基础讲解之scrapy框架

网络爬虫网络爬虫是指在互联网上自动爬取网站内容信息的程序，也被称作网络蜘蛛或网络机器人。大型的爬虫程序被广泛应用于搜索引擎、数据挖掘等领域，个人用户或企业也可以利用爬虫收集对自身有价值的数据。一个网络爬虫程序的基...

99+

2022-06-02

Python scrapy框架 Python爬虫框架
Python的Scrapy爬虫框架简单学习笔记

一、简单配置，获取单个网页上的内容。（1）创建scrapy项目 scrapy startproject getblog （2）编辑 items.py # -*- coding: utf-8 ...

99+

2022-06-04

爬虫学习笔记框架
Python爬虫框架之Scrapy中Spider的用法

Scrapy中Spider的用法 Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作...

99+

2022-06-02

Spider的用法 Python Scrapy框架
Python的爬虫框架scrapy用21行代码写一个爬虫

开发说明开发环境:Pycharm 2017.1(目前最新) 开发框架:Scrapy 1.3.3(目前最新) 目标爬取线报网站,并把内容保存到items.json里页面分析根据上图我们可以发...

99+

2022-06-04

爬虫框架代码
深入剖析Python的爬虫框架Scrapy的结构与运作流程

网络爬虫（Web Crawler, Spider）就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人，因为网络本身也是虚拟的东西，所以这个“机器人”其实也就是一段程序，并且它也不是乱爬，而是有一...

99+

2022-06-04

爬虫框架流程
Python爬虫基础之爬虫的分类知识总结

目录一、通用爬虫二、搜索引擎的局限性三、Robots协议四、请求与相应一、通用爬虫通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目...

99+

2024-04-02
分享一个简单的java爬虫框架

反复给网站编写不同的爬虫逻辑太麻烦了,自己实现了一个小框架可以自定义的部分有:请求方式(默认为Getuser-agent为谷歌浏览器的设置),可以通过实现RequestSet接口来自定义请求方式储存方式(默认储存在f盘的html文件夹下),...

99+

2023-05-30

java 爬虫框架 ava
使用Python实现简单的爬虫框架

目录一、请求网页二、解析 HTML三、构建爬虫框架爬虫是一种自动获取网页内容的程序，它可以帮助我们从网络上快速收集大量信息。在本文中，我们将学习如何使用 Python 编写一个简单的...

99+

2023-05-19

Python如何实现爬虫框架 Python爬虫框架 Python爬虫
Python爬虫之Scrapy框架系列（12）——实战ZH小说的爬取来深入学习CrawlSpider

目录： 1. CrawlSpider的引入：（1）首先：观察之前创建spider爬虫文件时（2）然后：通过命令scrapy genspider获取帮助：（...

99+

2023-09-05

python 爬虫 scrapy crawlspider 项目实战
python爬虫框架scrapy下载中间件的编写方法

目录下载中间件process_requestprocess_responseprocess_exception其它下载中间件在每一个scrapy工程中都有一个名为 middlewa...

99+

2024-04-02
Python爬虫基础之selenium库的用法总结

目录一、selenium简介二、selenium基本用法三、常用用法四、cookie的设置、获取与删除五、文件的上传与下载文件上传upload六、窗口的切换七、项目实战一、selenium简介官网总的来说： ...

99+

2022-06-02

Python selenium库用法 python爬虫
上手简单,功能强大的Python爬虫框架——feapder

简介 feapder 是一款上手简单，功能强大的Python爬虫框架，使用方式类似scrapy，方便由scrapy框架切换过来，框架内置3种爬虫： AirSpider爬虫比较轻量，学习成本低。面对一些数据...

99+

2022-06-02

Python 爬虫框架 python feapder
【Java基础教程】（七）面向对象篇 · 第一讲：上干货！面向对象的特性、类与对象、内存结构引用分析、垃圾收集器 GC处理、封装性详解、构造方法、匿名对象、简单 Java 类~

Java基础教程之面向对象 · 第一讲 🍉 篇章介绍本节学习目标1️⃣ 面向对象的三个特性2️⃣ 类与对象2.1 基本概念2.2 定义 3️⃣ 引用分析🔍 关于`垃圾收集器 GC`处理的介绍 ...

99+

2023-08-19

java 开发语言 java-ee jvm 后端