Python 官方文档:入门教程 => 点击学习
这篇文章主要介绍python怎么爬取天猫店铺商品链接,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!Python可以做什么Python是一种编程语言,内置了许多有效的工具,Python几乎无所不能,该语言通俗易懂、容易
这篇文章主要介绍python怎么爬取天猫店铺商品链接,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
Python是一种编程语言,内置了许多有效的工具,Python几乎无所不能,该语言通俗易懂、容易入门、功能强大,在许多领域中都有广泛的应用,例如最热门的大数据分析,人工智能,web开发等。
在使用python爬虫爬取网页时会遇到很多含有特殊符号的情况,当把链接复制到浏览器打开,发现每个节点都多了个\,直接使用response.xpath()无法定位元素,为避免定位不到元素的问题,应先对响应内容做一下过滤,然后使用response.replace()将过滤后的html文档重新赋值给response,本文以爬取天猫店铺商品链接为例,向大家介绍爬取过程。
爬取思路
使用response.text获取html文本,去除其中的\;
使用response.replace() 重新将去除\后的html赋值给response;
使用response.xpath()定位元素,成功获取商品链接。
具体代码
# -*- coding: utf-8 -*-import reimport scrapyclass TmallSpider(scrapy.Spider): name = 'tmall' allowed_domains = ['tmall.com'] start_urls = [ 'https://wogeliou.tmall.com/i/asynSearch.htm?_ksTS=1611910763284_313&callback= JSONp314&mid=w-22633333039-0&wid=22633333039&path=/search.htm&search=y&spm=a220o.1000855.0.0.7fcc367fsdZyLF' ] custom_settings = { 'ITEM_PIPELINES': { 'tn_scrapy.pipelines.TnScrapyPipeline': 300, }, 'DEFAULT_REQUEST_HEADERS': { "user-agent": 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36', 'cookie': '登录后的cookie' } } def parse(self, response): html = re.findall(r'jsonp\d+\("(.*?)"\)', response.text)[0] # 替换掉 \ html = re.sub(r'\\', '', html) # print('html:', html) response = response.replace(body=html) link = response.xpath('//div[@class="item5line1"]/dl/dd[@class="detail"]/a/@href').extract() print('link: ', link)
以上是“python怎么爬取天猫店铺商品链接”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注编程网Python频道!
--结束END--
本文标题: python怎么爬取天猫店铺商品链接
本文链接: https://lsjlt.com/news/272678.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
2024-03-01
2024-03-01
2024-03-01
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
0