返回顶部
首页 > 资讯 > 精选 >Scrapy的基础知识是什么
  • 801
分享到

Scrapy的基础知识是什么

2023-06-17 02:06:48 801人浏览 独家记忆
摘要

scrapy的基础知识是什么,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。我们将在这里介绍完Scrapy的基础知识架构简介下面是Scrapy的架构,包括组件以及

scrapy的基础知识是什么,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

我们将在这里介绍完Scrapy的基础知识

架构简介

下面是Scrapy的架构,包括组件以及在系统中发生的数据流的概览(红色箭头所示)。 之后会对每个组件做简单介绍,数据流也会做一个简要描述。

Scrapy的基础知识是什么

Scrapy的基础知识是什么

Scrapy的基础知识是什么

Scrapy的基础知识是什么

架构就是这样,流程和我第二篇里介绍的迷你架构差不多,但扩展性非常强大。

One more thing

Scrapy的基础知识是什么

Scrapy的基础知识是什么

Scrapy的基础知识是什么

scrapy startproject tutorial

该命令将会创建包含下列内容的 tutorial 目录:

tutorial/      scrapy.cfg            # 项目的配置文件      tutorial/             # 该项目的python模块。之后您将在此加入代码          __init__.py          items.py          # 项目中的item文件          pipelines.py      # 项目中的pipelines文件          settings.py       # 项目的设置文件          spiders/          # 放置spider代码的目录              __init__.py

编写第一个爬虫

Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。其包含了一个用于下载的初始URL,以及如何跟进网页中的链接以及如何分析页面中的内容的方法。

以下为我们的***个Spider代码,保存在 tutorial/spiders 目录下的 quotes_spider.py文件中:

import scrapy    class QuotesSpider(scrapy.Spider):      name = "quotes"        def start_requests(self):          urls = [              'Http://quotes.toscrape.com/page/1/',              'http://quotes.toscrape.com/page/2/',          ]          for url in urls:              yield scrapy.Request(url=url, callback=self.parse)        def parse(self, response):          page = response.url.split("/")[-2]          filename = 'quotes-%s.html' % page          with open(filename, 'wb') as f:              f.write(response.body)          self.log('Saved file %s' % filename)

运行我们的爬虫

进入项目的根目录,执行下列命令启动spider:

scrapy crawl quotes

这个命令启动用于爬取 quotes.toscrape.com 的spider,你将得到类似的输出:

2017-05-10 20:36:17 [scrapy.core.engine] INFO: Spider opened  2017-05-10 20:36:17 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)  2017-05-10 20:36:17 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023  2017-05-10 20:36:17 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt> (referer: None)  2017-05-10 20:36:17 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/> (referer: None)  2017-05-10 20:36:17 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/2/> (referer: None)  2017-05-10 20:36:17 [quotes] DEBUG: Saved file quotes-1.html  2017-05-10 20:36:17 [quotes] DEBUG: Saved file quotes-2.html  2017-05-10 20:36:17 [scrapy.core.engine] INFO: Closing spider (finished)

提取数据

我们之前只是保存了HTML页面,并没有提取数据。现在升级一下代码,把提取功能加进去。至于如何使用浏览器的开发者模式分析网页,之前已经介绍过了。

import scrapy   class QuotesSpider(scrapy.Spider):      name = "quotes"      start_urls = [          'http://quotes.toscrape.com/page/1/',          'http://quotes.toscrape.com/page/2/',      ]        def parse(self, response):          for quote in response.CSS('div.quote'):              yield {                  'text': quote.css('span.text::text').extract_first(),                  'author': quote.css('small.author::text').extract_first(),                  'tags': quote.css('div.tags a.tag::text').extract(),              }

再次运行这个爬虫,你将在日志里看到被提取出的数据:

2017-05-10 20:38:33 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/1/>  {'tags': ['life', 'love'], 'author': 'Andr&eacute; Gide', 'text': '“It is better to be hated for what you are than to be loved for what you are not.”'}  2017-05-10 20:38:33 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/1/>  {'tags': ['edison', 'failure', 'inspirational', 'paraphrased'], 'author': 'Thomas A. Edison', 'text': "“I have not failed. I've just found 10,000 ways that won't work.”"}

保存爬取的数据

最简单存储爬取的数据的方式是使用 Feed exports:

scrapy crawl quotes -o quotes.JSON

该命令将采用 jsON 格式对爬取的数据进行序列化,生成quotes.json文件。

如果需要对爬取到的item做更多更为复杂的操作,你可以编写 Item Pipeline,tutorial/pipelines.py在最开始的时候已经自动创建了。

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注编程网精选频道,感谢您对编程网的支持。

--结束END--

本文标题: Scrapy的基础知识是什么

本文链接: https://lsjlt.com/news/286857.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Scrapy的基础知识是什么
    Scrapy的基础知识是什么,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。我们将在这里介绍完Scrapy的基础知识架构简介下面是Scrapy的架构,包括组件以及...
    99+
    2023-06-17
  • puppet的基础知识是什么
    今天给大家介绍一下puppet的基础知识是什么。文章的内容小编觉得不错,现在给大家分享一下,觉得有需要的朋友可以了解一下,希望对大家有所帮助,下面跟着小编的思路一起来阅读吧。puppet基础导puppet,这是目前运维主流的运维自动化工具,...
    99+
    2023-06-16
  • 数据库基础知识是什么
    本篇文章为大家展示了数据库基础知识是什么,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。数据库的存储方式人工管理阶段文件系统阶段数据库系统管理阶段大数据big dat...
    99+
    2024-04-02
  • CSS基础知识有什么
    这篇文章主要介绍“CSS基础知识有什么”,在日常操作中,相信很多人在CSS基础知识有什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”CSS基础知识有什么”的疑惑有所帮助!接...
    99+
    2024-04-02
  • Linux网络管理的基础知识是什么
    Linux网络管理的基础知识是什么,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。网络基本配置文件网络连接配置文件(centos系):/etc/sysconfig...
    99+
    2023-06-16
  • Python的基础知识点有什么
    这篇文章主要讲解了“Python的基础知识点有什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python的基础知识点有什么”吧!集合(Set)及其函数集合是一个无序的、无重复元素的序列。...
    99+
    2023-06-16
  •  Python的基础知识及数据类型是什么
    今天给大家介绍一下 Python的基础知识及数据类型是什么。文章的内容小编觉得不错,现在给大家分享一下,觉得有需要的朋友可以了解一下,希望对大家有所帮助,下面跟着小编的思路一起来阅读吧。1 基础知识1.1 Python的应用方向和...
    99+
    2023-06-26
  • redis的基础知识
    select切换数据库 remoteSelf:0>select 0 "OK" dbsize查看当前数据库的key数量 remoteSelf:0>dbsize "2" keys查看所有的key remoteSelf:0>keys ...
    99+
    2018-01-01
    redis的基础知识
  • RabbitMQ的基础知识
    目录RabbitMQ1.对MQ的介绍2.RabbitMQ的六种模式 及工作原理3.hello world队列4.工作队列模式5.消息应答机制自动应答手动应答消息自动进行重新入队6.R...
    99+
    2024-04-02
  • python的基础知识
    1.python中的注释 ctrl + / 批量注释 块注释: 上下三个双引号中间的部分呢全部被注释" " "这是一个多行注释 " " " python的脚本编写 print('hello pyth...
    99+
    2023-01-31
    基础知识 python
  • CSS基础知识及使用方法是什么
    这篇文章主要介绍“CSS基础知识及使用方法是什么”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“CSS基础知识及使用方法是什么”文章能帮助大家解决问题。   CSS...
    99+
    2024-04-02
  • MySQL基础知识
    1、MySQL查询 union和union all的区别: union和union all都可以将两边的查询结果合并,区别在于union的合并会去掉重复行,并且使用默认的排序规则。而un...
    99+
    2022-01-06
    MySQL基础知识
  • Oracle基础知识
    1、Oracle分页查询 现有表employee_tbl,要求按年龄降序,分页查询数据,每页3条数据。 ID  NAME         DATE                             SIGNIN   AGE 1 ...
    99+
    2018-10-23
    Oracle基础知识
  • nodejs基础知识
    什么是nodejs? node.js是基于Chrome javaScript运行时建立的平台,用于方便地搭建响应速度快、易于扩展的网络应用。(但nodejs不是javascript应用,nodejs...
    99+
    2022-06-04
    基础知识 nodejs
  • MongoDB基础知识
    NoSQL是什么?   非关系型数据库,有时也称作Not Only SQL的缩写,是对不同于传统的关系型数据库的数据库管理系统的统称 NoSQL的优势  &...
    99+
    2024-04-02
  • MHA基础知识
    环境: ...
    99+
    2024-04-02
  • Python 基础知识
    只是打印出 hello world 肯定是不够的,是吗?你会希望做得比这还要多——你想要输入一些内容,操纵它,然后从中得到一些输出出来的内容。我们可以在 Python 中通过使用变量与常量来实现这一目标,在本章中我们还会学习其它的一些概...
    99+
    2023-01-31
    基础知识 Python
  • 基础知识—3.12
    1、二叉树: 结点:所有的叶子。 叶子结点:最后一层的叶子数。 性质1:二叉树第i层上的结点数目最多为 2{i-1} (i≥1)。性质2:深度为k的二叉树至多有2{k}-1个结点(k≥1)。性质3:包含n个结点的二叉树的高度至少为log2...
    99+
    2023-01-30
    基础知识
  • python基础知识
    1.注释   1.1.单行注释:以#开头,#右边的有所东西当做说明.   1.2.多行注释:'''   我是多行注释   '''   2.变量   2.1.为了充分的利用内存空间以及更有效率的管理内存,变量是有不同类型的     2.1....
    99+
    2023-01-30
    基础知识 python
  • python3基础知识
    字符串截取:利用下标进行截取py_str = 'python'len(py_str)py_str[:3] py_str + '123''python123'py_str * 3'pythonpythonpython' Str将数...
    99+
    2023-01-31
    基础知识
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作