返回顶部
首页 > 资讯 > 精选 >Scrapy使用案例分析
  • 785
分享到

Scrapy使用案例分析

2023-06-28 00:06:39 785人浏览 泡泡鱼
摘要

这篇“scrapy使用案例分析”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Scrapy使用案例分析”文章吧。scrapy是

这篇“scrapy使用案例分析”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Scrapy使用案例分析”文章吧。

scrapy是一个快速的高级WEB抓取和web抓取框架,用于抓取网站并从其页面中提取结构化数据。它可以用于广泛的用途,从数据挖掘监控自动化测试

Scrapy使用案例分析

安装

首先,确定你的电脑上已经安装了 python 3 以及对应的 pip。可以使用下面的命令查看:

python3 --versionPython 3.6.3$ pip3 --versionpip 9.0.1 from /usr/local/lib/python3.6/site-packages (python 3.6)

如果没有安装的话,推荐使 Homebrew 这个工具来进行安装。

pip 是 Python 的一个包管理工具,类似于 npm,可以在线安装、卸载所有的第三方 Python 模块,并自动处理依赖关系。这里我们使用下面的命令来安装 Scrapy 模块:

$ pip3 install scrapy

教程:一个抓取豆瓣电影 Top 250 的爬虫

首先,我们使用下面的命令来创建并初始化 Scrapy 项目

$ scrapy startproject doubanmovie

这样便会在当前目录下创建一个 doubanmovie 的爬虫项目,其内部结构如下:

$ tree.├── doubanmovie│   ├── __init__.py│   ├── __pycache__│   ├── items.py│   ├── middlewares.py│   ├── pipelines.py│   ├── settings.py│   └── spiders│       ├── __init__.py│       └── __pycache__└── scrapy.cfg

其中:

scrapy.cfg 为 Scrapy 项目的核心配置文件

items.py 用于定义爬虫程序爬取到的数据实体的属性结构

piplines.py 用于定义爬虫程序每次爬取到的数据实体进行后续处理的操作流程,比如写入文件系统或数据库

settings.py 为爬虫程序的配置文件,可以在这里定义多个 pipline 和 middleware

spiders 文件夹中存放爬虫文件

接着,我们需要在 items.py 文件中定义电影实体的属性结构:

class DoubanmovieItem(scrapy.Item):   # define the fields for your item here like:   # name = scrapy.Field()   rank = scrapy.Field() # 豆瓣排名   title = scrapy.Field() # 电影名称   poster = scrapy.Field() # 电影海报   link = scrapy.Field() # 链接地址   rating = scrapy.Field() # 豆瓣评分   pass

然后,我们使用下面的命令来创建一个名为 doubanspider 的爬虫程序:

$ scrapy genspider moviespider douban.com

运行之后会在 spiders 目录下生成一个名为 moviespider.py 的爬虫文件,内部定义了爬虫的名称、作用域及起始 URL 等基本信息,以及一个解析函数,该函数的主要功能便是通过 XPath 分析页面中的 html 元素,并将解析结果输出:

class MoviespiderSpider(scrapy.Spider):   name = 'moviespider'   allowed_domains = ['douban.com']   start_urls = ['https://movie.douban.com/top250']   def parse(self, response):       movie_items = response.xpath('//div[@class="item"]')       for item in movie_items:           movie = DoubanmovieItem()           movie['rank'] = item.xpath('div[@class="pic"]/em/text()').extract()           movie['title'] = item.xpath('div[@class="info"]/div[@class="hd"]/a/span[@class="title"][1]/text()').extract()           movie['poster'] = item.xpath('div[@class="pic"]/a/img/@src').extract()           movie['link'] = item.xpath('div[@class="info"]/div[@class="hd"]/a/@href').extract()           movie['rating'] = item.xpath('div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract()           yield movie       pass

通过爬虫解析后的实体数据,会通过一种 Pipeline 的过程将结果进行打印输出、存入文件或数据库等:

class DoubanmoviePipeline(object):   def process_item(self, item, spider):       print('豆瓣排名:' + item['rank'][0])       print('电影名称:' + item['title'][0])       print('链接地址:' + item['link'][0])       print('豆瓣评分:' + item['rating'][0] + '\n')       return item

由于豆瓣电影的网站设置了防爬虫技术,所以在完成上述步骤后运行爬虫会出现 403 的 Http 状态码。于是我们需要在发送的请求中加入 User Agent 信息来伪装成一个浏览器:

from scrapy.downloadermiddlewares.useragent import UserAgentMiddlewareclass FakeUserAgentMiddleware(UserAgentMiddleware):   def process_request(self, request, spider):       request.headers.setdefault('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36')

最后,我们将上述修改写入配置文件:

# Enable or disable downloader middlewares# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.htmlDOWNLOADER_MIDDLEWARES = {   'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,   'doubanmovie.fakeuseragent.FakeUserAgentMiddleware': 543,}# Configure item pipelines# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.htmlITEM_PIPELINES = {   'doubanmovie.pipelines.DoubanmoviePipeline': 300,}

运行 scrapy crawl moviespider 命令,便会在控制台中输出爬取到的数据。

以上就是关于“Scrapy使用案例分析”这篇文章的内容,相信大家都有了一定的了解,希望小编分享的内容对大家有帮助,若想了解更多相关的知识内容,请关注编程网精选频道。

--结束END--

本文标题: Scrapy使用案例分析

本文链接: https://lsjlt.com/news/314911.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Scrapy使用案例分析
    这篇“Scrapy使用案例分析”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Scrapy使用案例分析”文章吧。scrapy是...
    99+
    2023-06-28
  • 使用SQL的案例分析
    小编给大家分享一下使用SQL的案例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧! 需求 所有部门汇总的结果的打分。大部分...
    99+
    2024-04-02
  • 使用Vuex的案例分析
    这篇文章给大家分享的是有关使用Vuex的案例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。什么是Vuex?vuex是专门为vue.js应用程序开发的一种状态管理模式,当多个视...
    99+
    2024-04-02
  • Spring JPA使用案例分析
    今天小编给大家分享一下Spring JPA使用案例分析的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。1.什么是JPAJPA ...
    99+
    2023-06-27
  • Android CheckBox 的使用案例分析
    代码如下:public class MainActivity extends Activity { TextView tv; CheckBox cb1;&...
    99+
    2022-06-06
    checkbox 案例分析 Android
  • Redis使用lua脚本的案例分析
    这篇文章主要介绍了Redis使用lua脚本的案例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。版本:自2.6.0起可用。时间复杂度:取决...
    99+
    2024-04-02
  • module.exports和exports使用误区案例分析
    module.exports和exports使用误区 使用require()模块时,得到的永远都是module.exports指向的对象 1.误区一 exports.username...
    99+
    2023-05-14
    ES6 module.exports exports require node.js
  • Python数据分析:案例实操:使用Py
    Python爬虫太火了,没写过爬虫,都不敢说自己学过Python?! 可是刚一开始学,我就遇到了难题----数据分析!听起来很高大上,有没有? 想要做爬虫,就得先学会使用数据分析工具,制作图表这是最基本的。网上发现一个讲Pytho...
    99+
    2023-01-31
    案例 数据 Python
  • Mybatis Plus案例分析
    这篇文章主要介绍了Mybatis Plus案例分析的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Mybatis Plus案例分析文章都会有所收获,下面我们一起来看看吧。1 初识Mybatis-Plus  MyB...
    99+
    2023-06-29
  • SpringBoot中使用RabbitMQ的RPC功能案例分析
    这篇文章主要讲解了“SpringBoot中使用RabbitMQ的RPC功能案例分析”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“SpringBoot中使用RabbitMQ的RPC功能案例分析...
    99+
    2023-06-25
  • 分布式系统中PHP数组的使用案例分析
    随着互联网的快速发展,分布式系统已经成为了大型应用程序的标配。分布式系统的优势在于能够将应用程序的负载分散到多个节点上,从而提高了系统的可扩展性和可靠性。而PHP作为一种广泛使用的编程语言,在分布式系统中也扮演着重要的角色。本文将重点分析...
    99+
    2023-08-21
    数组 load 分布式
  • 使用Redis保存用户会话Session的案例分析
    这篇文章将为大家详细讲解有关使用Redis保存用户会话Session的案例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。前言PHP内置的绘画存储机制是把全部的会话数据...
    99+
    2024-04-02
  • MySQL中的插入意向锁使用案例分析
    这篇文章主要讲解了“MySQL中的插入意向锁使用案例分析”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“MySQL中的插入意向锁使用案例分析”吧! ...
    99+
    2023-02-07
    mysql
  • MySQL死锁案例分析
    最近项目中某个模块稳定复现MySQL死锁问题,本文记录死锁的发生原因以及解决办法。 1. 预备知识 1.1 表锁和行锁 表锁 表锁是MySQL中最基本的锁策略,并且是开销最小的策略。表锁会锁定整张数据表,用户的写操作(插入/删除/更新...
    99+
    2015-02-06
    MySQL死锁案例分析
  • MongoDB mapReduce案例分析二
    例2、查找订单中一个商品对应的订单总数和这个商品每个订单的平均销售数量    1、先看订单表orders的数据结构如下图    ...
    99+
    2024-04-02
  • MongoDB mapReduce案例分析一
    例子1:找出集合中的所有键以及每个键对应的次数    MongoDB没有模式,所以并不知道每个文档有多少个键。通常找到集合中的所有键的最好方法就是利用MapReduc...
    99+
    2024-04-02
  • ​MySQL Router的案例分析
    这篇文章主要介绍了MySQL Router的案例分析,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获。下面让小编带着大家一起了解一下。MySQL Router用于取代MySQL P...
    99+
    2024-04-02
  • T-SQL的案例分析
    这篇文章主要介绍了T-SQL的案例分析,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获。下面让小编带着大家一起了解一下。Transact-SQL通常缩写为T-SQL,或者TSQL,...
    99+
    2024-04-02
  • WCF协定案例分析
    本篇内容主要讲解“WCF协定案例分析”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“WCF协定案例分析”吧!WCF协定定义消息系统的各个方面。包括Data Contract(数据协定,Messag...
    99+
    2023-06-17
  • Python爬虫案例分析
    本篇内容介绍了“Python爬虫案例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成! 一、论述这几个案例以前是给一些想进入Pyt...
    99+
    2023-06-17
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作