如何使用scrapy-splash

2023-06-06 11:06:18 592人浏览薄情痞子

摘要

这篇文章主要介绍了如何使用scrapy-splash，编程网小编觉得不错，现在分享给大家，也给大家做个参考，一起跟随编程网小编来看看吧！1.scrapy_splash是scrapy的一个组件scrapy_splash加载js数据基于Spla

这篇文章主要介绍了如何使用scrapy-splash，编程网小编觉得不错，现在分享给大家，也给大家做个参考，一起跟随编程网小编来看看吧！

1.scrapy_splash是scrapy的一个组件

scrapy_splash加载js数据基于Splash来实现的

Splash是一个Javascrapy渲染服务，它是一个实现Http api的轻量级浏览器，Splash是用python和lua语言实现的，基于Twisted和Qt等模块构建

使用scrapy-splash最终拿到的response相当于是在浏览器全部渲染完成以后的网页源代码

2.scrapy_splash的作用

scrpay_splash能够模拟浏览器加载js，并返回js运行后的数据

3.scrapy_splash的环境安装

1 使用splash的Docker镜像

docker info 查看docker信息

docker images 查看所有镜像

docker pull scrapinghub/splash 安装scrapinghub/splash

docker run -p 8050:8050 scrapinghub/splash & 指定8050端口运行

2.pip install scrapy-splash

3.scrapy 配置:

  SPLASH_URL = 'http://localhost:8050'  DOWNLOADER_MIDDLEWARES = {    'scrapy_splash.SplashCookiesMiddleware': 723,    'scrapy_splash.SplashMiddleware': 725,    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,  }  SPIDER_MIDDLEWARES = {    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,  }  DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'  HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

scrapy 使用

from scrapy_splash import SplashRequestyield SplashRequest(self.start_urls[0], callback=self.parse, args={'wait': 0.5})

测试代码：

import datetimeimport os import scrapyfrom scrapy_splash import SplashRequest from ..settings import LOG_DIR  class SplashSpider(scrapy.Spider):  name = 'splash'  allowed_domains = ['biqugedu.com']  start_urls = ['http://www.biqugedu.com/0_25/']   custom_settings = {    'LOG_FILE': os.path.join(LOG_DIR, '%s_%s.log' % (name, datetime.date.today().strftime('%Y-%m-%d'))),    'LOG_LEVEL': 'INFO',    'CONCURRENT_REQUESTS': 8,    'AUTOTHROTTLE_ENABLED': True,    'AUTOTHROTTLE_TARGET_CONCURRENCY': 8,     'SPLASH_URL': 'http://localhost:8050',    'DOWNLOADER_MIDDLEWARES': {      'scrapy_splash.SplashCookiesMiddleware': 723,      'scrapy_splash.SplashMiddleware': 725,      'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,    },    'SPIDER_MIDDLEWARES': {      'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,    },    'DUPEFILTER_CLASS': 'scrapy_splash.SplashAwareDupeFilter',    'HTTPCACHE_STORAGE': 'scrapy_splash.SplashAwareFSCacheStorage',   }   def start_requests(self):    yield SplashRequest(self.start_urls[0], callback=self.parse, args={'wait': 0.5})   def parse(self, response):    """    :param response:    :return:    """    response_str = response.body.decode('utf-8', 'ignore')    self.logger.info(response_str)    self.logger.info(response_str.find('http://www.biqugedu.com/files/article/image/0/25/25s.jpg'))

scrapy-splash接收到js请求：

如何使用scrapy-splash

以上就是编程网小编为大家收集整理的如何使用scrapy-splash，如何觉得编程网网站的内容还不错，欢迎将编程网网站推荐给身边好友。

--结束END--

本文标题: 如何使用scrapy-splash

本文链接: https://lsjlt.com/news/246641.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

如何使用scrapy-splash

这篇文章主要介绍了如何使用scrapy-splash，编程网小编觉得不错，现在分享给大家，也给大家做个参考，一起跟随编程网小编来看看吧！1.scrapy_splash是scrapy的一个组件scrapy_splash加载js数据基于Spla...

99+

2023-06-06
利用 scrapy-splash 对京东

本人是第一次写博客，有写得不好的地方欢迎值出来，大家一起进步！ scrapy-splash的介绍 scrapy-splash模块主要使用了Splash. 所谓的Splash, 就是一个Javascript渲染服务。它是一个实现了HTTP ...

99+

2023-01-31

京东 scrapy splash
Scrapy的中间件如何使用

这篇文章主要讲解了“Scrapy的中间件如何使用”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Scrapy的中间件如何使用”吧！Scrapy 结构概述：一、下载器中间件（Downloader...

99+

2023-07-02
python3之Splash的具体使用

目录1、Scrapy-Splash的安装2、Splash Lua脚本3、Splash对象的属性与方法4、响应对象5、元素对象6、Splash HTTP API调用7、实例Splash...

99+

2024-04-02
如何在python中使用scrapy模块

这篇文章将为大家详细讲解有关如何在python中使用scrapy模块，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。二、基本使用2.1 环境安装1.linux和mac操作系统：pip ...

99+

2023-06-06
如何使用Scrapy网络爬虫框架

这篇文章将为大家详细讲解有关如何使用Scrapy网络爬虫框架，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。scrapy 介绍标准介绍Scrapy是一个为了爬取网站数据，提...

99+

2024-04-02
python如何使用Scrapy爬取网易新闻

这篇文章主要介绍python如何使用Scrapy爬取网易新闻，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！1. 新建项目在命令行窗口下输入scrapy startproject scrapytest, 如下然后就自动...

99+

2023-06-14
如何使用scrapy实现增量式爬取

本篇内容主要讲解“如何使用scrapy实现增量式爬取”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“如何使用scrapy实现增量式爬取”吧!1.要爬取的信息在scrapy中，信息通过item来封装...

99+

2023-07-02
python中如何使用Scrapy实现定时爬虫

这篇文章将为大家详细讲解有关python中如何使用Scrapy实现定时爬虫，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。python的数据类型有哪些python的数据类型：1. 数字类型，包括int（整型...

99+

2023-06-14
如何使用Scrapy-Redis实现分布式爬虫

Scrapy-Redis是一个Scrapy框架的插件，可以用于实现分布式爬虫。下面是使用Scrapy-Redis实现分布式爬虫的步骤...

99+

2024-05-15

Scrapy
scrapy的简单使用

使用之前的创建虚拟环境方法（pipenv）创建虚拟环境并进入虚拟环境 mkdir douban cd douban pipenv install pipenv shell 再安装我们的scrapy pipenv install s...

99+

2023-01-30

简单 scrapy
使用scrapy爬取suning

# -*- coding: utf-8 -*- import scrapy from copy import deepcopy class SuSpider(scrapy.Spider): name = 'su' ...

99+

2023-01-31

scrapy suning
爬虫Scrapy框架之css选择器如何使用

这篇文章将为大家详细讲解有关爬虫Scrapy框架之css选择器如何使用，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。css选择器介绍在css中选择器是一种模式，用于选择需要添加样式的元素，css对html...

99+

2023-06-02
如何用Scrapy爬取豆瓣TOP250

如何用Scrapy爬取豆瓣TOP250，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。最好的学习方式就是输入之后再输出，分享一个自己学习scrapy框架的小案例，方便快速的掌握使...

99+

2023-06-04
Docker如何部署Scrapy

这篇文章将为大家详细讲解有关Docker如何部署Scrapy，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。假设我们要在10台Ubuntu 部署爬虫如何搞之？用传统的方法会吐血的，除非你记录下来每个步骤，然...

99+

2023-06-07
python中Scrapy shell的使用

前言：我们想要在爬虫中使用xpath、beautifulsoup、正则表达式，css选择器等来提取想要的数据，但是因为scrapy是一个比较重的框架，每次运行都要等到一段时间，因此...

99+

2024-04-02
scrapy框架ItemPipeline的使用

目录Item Pipeline简介功能:一、一个自己的Pipeline类二、启用一个Item Pipeline组件将item写入JSON文件将item写入MongoDBItem Pi...

99+

2024-04-02
Scrapy使用案例分析

这篇“Scrapy使用案例分析”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“Scrapy使用案例分析”文章吧。scrapy是...

99+

2023-06-28
python Scrapy shell怎么使用

本文小编为大家详细介绍“python Scrapy shell怎么使用”，内容详细，步骤清晰，细节处理妥当，希望这篇“python Scrapy shell怎么使用”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一...

99+

2023-06-29
使用Scrapy自带的ImagesPip

ImagesPipeline是scrapy自带的类，用来处理图片（爬取时将图片下载到本地）用的。优势：将下载图片转换成通用的JPG和RGB格式避免重复下载缩略图生成图片大小过滤异步下载 ...... 工作流程：爬取一个...

99+

2023-01-30

自带 Scrapy ImagesPip