返回顶部
首页 > 资讯 > 精选 >如何使用scrapy-splash
  • 592
分享到

如何使用scrapy-splash

2023-06-06 11:06:18 592人浏览 薄情痞子
摘要

这篇文章主要介绍了如何使用scrapy-splash,编程网小编觉得不错,现在分享给大家,也给大家做个参考,一起跟随编程网小编来看看吧!1.scrapy_splash是scrapy的一个组件scrapy_splash加载js数据基于Spla

这篇文章主要介绍了如何使用scrapy-splash,编程网小编觉得不错,现在分享给大家,也给大家做个参考,一起跟随编程网小编来看看吧!

1.scrapy_splash是scrapy的一个组件

scrapy_splash加载js数据基于Splash来实现的

Splash是一个Javascrapy渲染服务,它是一个实现Http api的轻量级浏览器,Splash是用pythonlua语言实现的,基于Twisted和Qt等模块构建

使用scrapy-splash最终拿到的response相当于是在浏览器全部渲染完成以后的网页源代码

2.scrapy_splash的作用

scrpay_splash能够模拟浏览器加载js,并返回js运行后的数据

3.scrapy_splash的环境安装

1 使用splash的Docker镜像

docker info 查看docker信息

docker images  查看所有镜像

docker pull scrapinghub/splash  安装scrapinghub/splash

docker run -p 8050:8050 scrapinghub/splash &  指定8050端口运行

2.pip install scrapy-splash

3.scrapy 配置:

  SPLASH_URL = 'http://localhost:8050'  DOWNLOADER_MIDDLEWARES = {    'scrapy_splash.SplashCookiesMiddleware': 723,    'scrapy_splash.SplashMiddleware': 725,    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,  }  SPIDER_MIDDLEWARES = {    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,  }  DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'  HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

scrapy 使用

from scrapy_splash import SplashRequestyield SplashRequest(self.start_urls[0], callback=self.parse, args={'wait': 0.5})

测试代码:

import datetimeimport os import scrapyfrom scrapy_splash import SplashRequest from ..settings import LOG_DIR  class SplashSpider(scrapy.Spider):  name = 'splash'  allowed_domains = ['biqugedu.com']  start_urls = ['http://www.biqugedu.com/0_25/']   custom_settings = {    'LOG_FILE': os.path.join(LOG_DIR, '%s_%s.log' % (name, datetime.date.today().strftime('%Y-%m-%d'))),    'LOG_LEVEL': 'INFO',    'CONCURRENT_REQUESTS': 8,    'AUTOTHROTTLE_ENABLED': True,    'AUTOTHROTTLE_TARGET_CONCURRENCY': 8,     'SPLASH_URL': 'http://localhost:8050',    'DOWNLOADER_MIDDLEWARES': {      'scrapy_splash.SplashCookiesMiddleware': 723,      'scrapy_splash.SplashMiddleware': 725,      'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,    },    'SPIDER_MIDDLEWARES': {      'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,    },    'DUPEFILTER_CLASS': 'scrapy_splash.SplashAwareDupeFilter',    'HTTPCACHE_STORAGE': 'scrapy_splash.SplashAwareFSCacheStorage',   }   def start_requests(self):    yield SplashRequest(self.start_urls[0], callback=self.parse, args={'wait': 0.5})   def parse(self, response):    """    :param response:    :return:    """    response_str = response.body.decode('utf-8', 'ignore')    self.logger.info(response_str)    self.logger.info(response_str.find('http://www.biqugedu.com/files/article/image/0/25/25s.jpg'))

scrapy-splash接收到js请求:

如何使用scrapy-splash

以上就是编程网小编为大家收集整理的如何使用scrapy-splash,如何觉得编程网网站的内容还不错,欢迎将编程网网站推荐给身边好友。

--结束END--

本文标题: 如何使用scrapy-splash

本文链接: https://lsjlt.com/news/246641.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 如何使用scrapy-splash
    这篇文章主要介绍了如何使用scrapy-splash,编程网小编觉得不错,现在分享给大家,也给大家做个参考,一起跟随编程网小编来看看吧!1.scrapy_splash是scrapy的一个组件scrapy_splash加载js数据基于Spla...
    99+
    2023-06-06
  • 利用 scrapy-splash 对京东
    本人是第一次写博客,有写得不好的地方欢迎值出来,大家一起进步! scrapy-splash的介绍 scrapy-splash模块主要使用了Splash. 所谓的Splash, 就是一个Javascript渲染服务。它是一个实现了HTTP ...
    99+
    2023-01-31
    京东 scrapy splash
  • Scrapy的中间件如何使用
    这篇文章主要讲解了“Scrapy的中间件如何使用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Scrapy的中间件如何使用”吧!Scrapy 结构概述:一、下载器中间件(Downloader...
    99+
    2023-07-02
  • python3之Splash的具体使用
    目录1、Scrapy-Splash的安装2、Splash Lua脚本3、Splash对象的属性与方法4、响应对象5、元素对象6、Splash HTTP API调用7、实例Splash...
    99+
    2024-04-02
  • 如何在python中使用scrapy模块
    这篇文章将为大家详细讲解有关如何在python中使用scrapy模块,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。二、基本使用2.1 环境安装1.linux和mac操作系统:pip ...
    99+
    2023-06-06
  • 如何使用Scrapy网络爬虫框架
    这篇文章将为大家详细讲解有关如何使用Scrapy网络爬虫框架,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。scrapy 介绍标准介绍Scrapy是一个为了爬取网站数据,提...
    99+
    2024-04-02
  • python如何使用Scrapy爬取网易新闻
    这篇文章主要介绍python如何使用Scrapy爬取网易新闻,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1. 新建项目在命令行窗口下输入scrapy startproject scrapytest, 如下然后就自动...
    99+
    2023-06-14
  • 如何使用scrapy实现增量式爬取
    本篇内容主要讲解“如何使用scrapy实现增量式爬取”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何使用scrapy实现增量式爬取”吧!1.要爬取的信息在scrapy中,信息通过item来封装...
    99+
    2023-07-02
  • python中如何使用Scrapy实现定时爬虫
    这篇文章将为大家详细讲解有关python中如何使用Scrapy实现定时爬虫,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。python的数据类型有哪些python的数据类型:1. 数字类型,包括int(整型...
    99+
    2023-06-14
  • 如何使用Scrapy-Redis实现分布式爬虫
    Scrapy-Redis是一个Scrapy框架的插件,可以用于实现分布式爬虫。下面是使用Scrapy-Redis实现分布式爬虫的步骤...
    99+
    2024-05-15
    Scrapy
  • scrapy的简单使用
    使用之前的创建虚拟环境方法(pipenv) 创建虚拟环境并进入虚拟环境 mkdir douban cd douban pipenv install pipenv shell 再安装我们的scrapy pipenv install s...
    99+
    2023-01-30
    简单 scrapy
  • 使用scrapy爬取suning
    # -*- coding: utf-8 -*- import scrapy from copy import deepcopy class SuSpider(scrapy.Spider): name = 'su' ...
    99+
    2023-01-31
    scrapy suning
  • 爬虫Scrapy框架之css选择器如何使用
    这篇文章将为大家详细讲解有关爬虫Scrapy框架之css选择器如何使用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。css选择器介绍在css中选择器是一种模式,用于选择需要添加样式的元素,css对html...
    99+
    2023-06-02
  • 如何用Scrapy爬取豆瓣TOP250
    如何用Scrapy爬取豆瓣TOP250,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。最好的学习方式就是输入之后再输出,分享一个自己学习scrapy框架的小案例,方便快速的掌握使...
    99+
    2023-06-04
  • Docker如何部署Scrapy
    这篇文章将为大家详细讲解有关Docker如何部署Scrapy,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。假设我们要在10台Ubuntu 部署爬虫如何搞之?用传统的方法会吐血的,除非你记录下来每个步骤,然...
    99+
    2023-06-07
  • python中Scrapy shell的使用
    前言: 我们想要在爬虫中使用xpath、beautifulsoup、正则表达式,css选择器等来提取想要的数据,但是因为scrapy是一个比较重的框架,每次运行都要等到一段时间,因此...
    99+
    2024-04-02
  • scrapy框架ItemPipeline的使用
    目录Item Pipeline简介功能:一、一个自己的Pipeline类二、启用一个Item Pipeline组件将item写入JSON文件将item写入MongoDBItem Pi...
    99+
    2024-04-02
  • Scrapy使用案例分析
    这篇“Scrapy使用案例分析”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Scrapy使用案例分析”文章吧。scrapy是...
    99+
    2023-06-28
  • python Scrapy shell怎么使用
    本文小编为大家详细介绍“python Scrapy shell怎么使用”,内容详细,步骤清晰,细节处理妥当,希望这篇“python Scrapy shell怎么使用”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一...
    99+
    2023-06-29
  • 使用Scrapy自带的ImagesPip
    ImagesPipeline是scrapy自带的类,用来处理图片(爬取时将图片下载到本地)用的。 优势: 将下载图片转换成通用的JPG和RGB格式 避免重复下载 缩略图生成 图片大小过滤 异步下载 ...... 工作流程: 爬取一个...
    99+
    2023-01-30
    自带 Scrapy ImagesPip
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作