使用scrapy爬取suning

scrapy suning 2023-01-31 00:01:18 597人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

# -*- coding: utf-8 -*- import scrapy from copy import deepcopy class SuSpider(scrapy.Spider): name = 'su'

# -*- coding: utf-8 -*-
import scrapy
from copy import deepcopy


class SuSpider(scrapy.Spider):
    name = 'su'
    allowed_domains = ['suning.com']
    start_urls = ['Http://list.suning.com/?safp=d488778a.error1.0.4786e76351']

    def parse(self, response):
        # 获取大分类列表
        bcate_list = response.xpath("//div[@class='allsortLeft']/ul/li")
        for bcate in bcate_list:
            item = {}
            # 获取大分类class的值
            class_name = bcate.xpath("./@class").extract_first()
            # 获取所有大分类的名称
            item["BCate"] = bcate.xpath("./a/span/text()").extract_first()
            # print(item["BCate"])
            # 根据大分类的class定位每个大分类下的所有小分类
            scate_list = response.xpath("//div[@class='{}']/div".fORMat(class_name))
            for scate in scate_list:
                # 小分类的名称
                item["SCate"] = scate.xpath("./div[1]/a/@title").extract_first()
                # 获取每个小分类下的所有标签
                tag_list = scate.xpath("./div[2]/a")
                for tag in tag_list:
                    # 每个标签的链接和名称
                    item["tag"] = tag.xpath("./text()").extract_first()
                    item["tag_link"] = "http:" + tag.xpath("./@href").extract_first()
                    # 进入列表页
                    yield scrapy.Request(
                        item["tag_link"],
                        callback=self.Good_list,
                        meta={"item": deepcopy(item)}
                    )

    def good_list(self, response):
        item = deepcopy(response.meta["item"])
        # 获取当前页的所有商品列表
        li_list = response.xpath("//div[@id='product-wrap']/div/ul/li")
        for li in li_list:
            # 获取商品的图片地址，名称，价格，商品详情页的链接
            item["good_img"] = "http:"+li.xpath(".//div[@class='res-img']/div/a/img/@src").extract_first()
            item["good_name"] = li.xpath(".//div[@class='res-info']/div/a/text()").extract_first()
            item["good_price"] = li.xpath(".//div[@class='res-info']/div/span/text()").extract_first()
            item["good_href"] = li.xpath(".//div[@class='res-info']/div/a/@href").extract_first()
            # 进入商品详情页
            if item["good_href"] != "javascript:void(0);":
                yield scrapy.Request(
                    "http:"+item["good_href"],
                    callback=self.good_detail,
                    meta={"item": deepcopy(item)}
                )
        # 翻页
        next_url = response.xpath("//a[@id='nextPage']/@href").extract_first()
        if next_url:
            yield scrapy.Request(
                next_url,
                callback=self.good_list,
                meta={"item": response.meta["item"]}
            )

    def good_detail(self, response):
        item = response.meta["item"]
        # 获取当前商品的属性规格：颜色、版本、
        size_list = response.xpath("//div[@id='J-TZM']/dl")
        for size in size_list:
            size_name = size.xpath("./dt/span/text()").extract_first()
            size_value = size.xpath("./dd/ul/li/@title").extract()
            item[size_name] = size_value
        print(item)

View Code

您可能感兴趣的文档:

--结束END--

本文标题: 使用scrapy爬取suning

本文链接: https://lsjlt.com/news/182242.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

使用scrapy爬取suning

# -*- coding: utf-8 -*- import scrapy from copy import deepcopy class SuSpider(scrapy.Spider): name = 'su' ...

99+

2023-01-31

scrapy suning
使用 Scrapy 爬取股票代码

个人博客： https://mypython.me 源码地址： https://github.com/geeeeeeeek/scrapy_stock 抓取工具：scrapy scrapy 介绍 Scrapy是一个为了爬取网站数据，提取结构...

99+

2023-01-30

股票代码 Scrapy
python scrapy爬取HBS 汉

下面分享个scrapy的例子利用scrapy爬取HBS 船公司柜号信息 1、前期准备查询提单号下的柜号有哪些，主要是在下面的网站上，输入提单号，然后点击查询 https://www.hamburgsud-line.com/liner/...

99+

2023-01-30

python scrapy HBS
Python爬虫实战之使用Scrapy爬取豆瓣图片

使用Scrapy爬取豆瓣某影星的所有个人图片以莫妮卡·贝鲁奇为例首先我们在命令行进入到我们要创建的目录，输入 scrapy startproject banciyuan 创建scrapy项目创建的项目结构如下...

99+

2022-06-02

Scrapy爬取图片 Python Scrapy
使用scrapy实现增量式爬取方式

目录1.要爬取的信息1.BookItem2.ChapterItem2.解析信息1.指定需要跟进的url和回调函数2.解析方法3.scrapy中实现增量式爬取的几种方式1.缓存2.对i...

99+

2024-04-02
怎么在Django中使用Scrapy爬取数据

怎么在Django中使用Scrapy爬取数据？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。在django项目根目录位置创建scrapy项目，django_12是django...

99+

2023-06-14
python如何使用Scrapy爬取网易新闻

这篇文章主要介绍python如何使用Scrapy爬取网易新闻，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！1. 新建项目在命令行窗口下输入scrapy startproject scrapytest, 如下然后就自动...

99+

2023-06-14
如何使用scrapy实现增量式爬取

本篇内容主要讲解“如何使用scrapy实现增量式爬取”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“如何使用scrapy实现增量式爬取”吧!1.要爬取的信息在scrapy中，信息通过item来封装...

99+

2023-07-02
如何用Scrapy爬取豆瓣TOP250

如何用Scrapy爬取豆瓣TOP250，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。最好的学习方式就是输入之后再输出，分享一个自己学习scrapy框架的小案例，方便快速的掌握使...

99+

2023-06-04
Python爬虫之教你利用Scrapy爬取图片

目录Scrapy下载图片项目介绍使用Scrapy下载图片项目创建项目预览创建爬虫文件项目组件介绍Scrapy爬虫流程介绍页面结构分析最终目录树项目运行爬取结果后记Scrapy下载图片...

99+

2024-04-02
使用python scrapy爬取天气并导出csv文件

目录爬取xxx天气安装创建scray爬虫项目文件说明开始爬虫补充：scrapy导出csv时字段的一些问题1.字段顺序问题：2.输出csv有空行的问题总结爬取xxx天气爬...

99+

2024-04-02
怎么在Python中使用Scrapy爬取豆瓣图片

本篇文章为大家展示了怎么在Python中使用Scrapy爬取豆瓣图片，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。1.首先我们在命令行进入到我们要创建的目录，输入 scrapy startproje...

99+

2023-06-15
Python爬虫教程使用Scrapy框架爬取小说代码示例

目录Scrapy框架简单介绍创建Scrapy项目创建Spider爬虫Spider爬虫提取数据items.py代码定义字段fiction.py代码提取数据pipelines.py代码保...

99+

2024-04-02
使用Python的Scrapy框架十分钟爬取美女图

简介 scrapy 是一个 python 下面功能丰富、使用快捷方便的爬虫框架。用 scrapy 可以快速的开发一个简单的爬虫，官方给出的一个简单例子足以证明其强大：快速开发下面开始10分钟倒计时： ...

99+

2022-06-04

十分钟美女图框架
Python scrapy框架爬取瓜子二

项目实施依赖： python，scrapy ，fiddler scrapy安装依赖的包：可以到https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载 pywin32，lxml，Twisted，sc...

99+

2023-01-31

瓜子框架 Python
Python爬虫框架-scrapy的使用

Scrapy Scrapy是纯python实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy使用了Twisted异步网络框架来处理网络通讯，可以加快我们的下载速度，并且包含了...

99+

2022-06-02

Python爬虫框架scrapy使用 Python scrapy使用
scrapy爬虫框架怎么使用

这篇“scrapy爬虫框架怎么使用”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“scrapy爬虫框架怎么使用”文章吧。一、s...

99+

2023-06-27
python实现Scrapy爬取网易新闻

1. 新建项目在命令行窗口下输入scrapy startproject scrapytest, 如下然后就自动创建了相应的文件，如下 2. 修改itmes.py文件打开s...

99+

2024-04-02
基于python的scrapy框架爬取豆

1.Scrapy框架介绍主要介绍，spiders，engine，scheduler,downloader,Item pipeline scrapy常见命令如下：对应在scrapy文件中有，自己增加爬虫文件，系统生成items,...

99+

2023-01-30

框架 python scrapy
Python的scrapy之爬取6毛小说

闲来无事想看个小说，打算下载到电脑上看，找了半天，没找到可以下载的网站，于是就想自己爬取一下小说内容并保存到本地圣墟第一章沙漠中的彼岸花 - 辰东 - 6毛小说网 http://www.6mao.com/html/40/40184...

99+

2023-01-30

小说 Python scrapy