首页 > 资讯 > 后端开发 > Python >selenium在scrapy中的使用代码

554

分享到

selenium在scrapy中的使用代码

2024-04-02 19:04:59 554人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观

在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加载出的数据，则必须使用selenium创建浏览器对象，然后通过该浏览器对象进行请求发送，获取动态加载的数据值。本文重点给大家介绍selenium在scrapy中的使用，具体内容如下所示：

使用目的

爬取网易新闻国内、国际、军事、航空4个版块的新闻。在测试中发现各版块的新闻是动态加载的，如果直接爬取无法获取，使用selenium帮助获取此部分数据。

代码

spider


import scrapy
from selenium import WEBdriver
from wangyiPro.items import WangyiproItem

class WangyiSpider(scrapy.Spider):
    name = 'wangyi'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://news.163.com/']
    model_url = []

   
    hro = webdriver.Chrome()

    def parse(self, response):
    # 从所有版块中筛选出所需要下载的4个版块
        li_list = response.xpath('/html/body/div[1]/div[1]/div[2]/div[2]/div[2]/div[2]/div/ul/li')
        indexs = [3,4,6,7]
        for index in indexs:
            model_li = li_list[index]
            model_list = model_li.xpath('./a/@href').extract_first()
            self.model_url.append(model_list)
        for url in self.model_url:
            yield scrapy.Request(url=url,callback=self.parse_model)

    # 数据解析：新闻标题+新闻详情页的url（动态加载数据）
    def parse_model(self,response):
        # 直接对response解析无法获取该数据（动态加载数据）
        # 无法拿到动态加载数据返回的响应数据就不足
        # 使用中间件修改不满足需求的响应对象中的响应数据，将其改为包含动态加载数据的响应数据
        div_list = response.xpath('/html/body/div/div[3]/div[4]/div[1]/div[1]/div/ul/li/div/div')
        for div in div_list:
            title = div.xpath('./div/div[1]/h3/a/text()').extract_first()
            new_url_detail = div.xpath('./div/div[1]/h3/a/@href').extract_first()

            if new_url_detail:
                item = WangyiproItem()
                item['title'] = title


                yield scrapy.Request(url=new_url_detail,callback=self.parse_detail,meta={'item':item})


    def parse_detail(self,response):
        # 返回的列表，需要将其转换为字符串
        content = response.xpath('/html/body/div[3]/div[1]/div[3]/div[2]/p/text()').extract()
        content = ''.join(content)
        item = response.meta['item']
        item['content'] = content

        yield item

    # 重写爬虫类父类方法，该方法在爬虫程序执行结束后立即执行
    def closed(self,spider):
        # 打开selenium需要关闭
        self.hro.quit()

middlewares


from time import sleep
from scrapy.Http import HtmlResponse#scrapy封装好的响应类

class WangyiproDownloaderMiddleware:


    def process_request(self, request, spider):

        return None

    # 拦截所有的响应对象
    # 整个工程发起的请求：1+4+n 对应相同的响应
    def process_response(self, request, response, spider):
        # 从所有拦截对象中找到4个需修改的响应对象
        if request.url in spider.model_url:
            hro = spider.hro
            hro.get(request.url)
            sleep(2)
            # 网页下拉到底，获取更多动态加载数据
            hro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
            sleep(1)
            page_text = hro.page_source
            # response.text = page_text
            # 返回一个新的响应对象
            return HtmlResponse(url=request.url,body=page_text,encoding='utf-8',request=request)

        # 如果不是需要修改的响应数据，不做修改
        else:
            return response

    def process_exception(self, request, exception, spider):

        pass

效果

在这里插入图片描述

总结

hro = webdriver.Chrome() 我是直接将Chromedriver写入配置文件，所以直接实例化对象即可，如果没有写入配置文件，写为hro = webdriver.Chrome(executable_path='绝对路径')。尝试过将Chromedriver放到PyCharm的文件下写入相对路径，没有成功。
使用selenium在结束后需要关闭，可以改写爬虫类父类方法closed()
settings里修改三件套并且打开下载中间件和items

以上就是selenium如何在scrapy中的使用的详细内容，更多关于scrapy中使用selenium的资料请关注编程网其它相关文章！

您可能感兴趣的文档:

--结束END--

本文标题: selenium在scrapy中的使用代码

本文链接: https://lsjlt.com/news/126731.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

selenium在scrapy中的使用代码

使用目的

代码

selenium在scrapy中的使用代码

scrapy中selenium的应用

使用 Scrapy 爬取股票代码

Python selenium webdriver 基本使用代码分享

如何在python中使用scrapy模块

python中Scrapy shell的使用

在Java中使用Jwt的示例代码

怎么在Django中使用Scrapy爬取数据

Scrapy的中间件如何使用

如何在 Python 中使用 JavaScript 代码？

js代码怎么在html中使用

怎么用代码搞定Scrapy随机 User-Agent

python selenium chrome使用验证代理

Xpath元素选择器怎么在Scrapy中使用

Python中Selenium的基本使用

Selenium中的option使用示例

scrapy的简单使用

如何在python中安装与使用selenium库

Python中的Scrapy框架怎么使用

如何在HTML中使用颜色代码？

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义