返回顶部
首页 > 资讯 > 后端开发 > Python >用python来爬取某鱼的商品信息(1/2)
  • 897
分享到

用python来爬取某鱼的商品信息(1/2)

python开发语言 2023-08-31 06:08:37 897人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

目录 前言 第一大难题——找到网站入口 曲线救国  模拟搜索 第二大难题——登录 提一嘴 登录cookie获取 第一种 第二种  第四大难题——无法使用导出的cookie  原因 解决办法 最后 出现小问题 总结 下一篇博客(大部分代码实现

目录

前言

第一大难题——找到网站入口

曲线救国

 模拟搜索

第二大难题——登录

提一嘴

登录cookie获取

第一种

第二种

 第四大难题——无法使用导出的cookie

 原因

解决办法

最后

出现小问题

总结

下一篇博客(大部分代码实现)


前言

本章讲理论,后面一节讲代码

拿来练练手的,练练selenium包,实战一下

(本来想拿来练手的,没想到他喵的有挺多防爬的,直接开局就困难难度我靠,凸(艹皿艹 ))

找到可以爬取的网站

第一大难题——找到网站入口

但是咸鱼官方的网站已经关闭了(开局就不利)

闲鱼.淘宝二手 - 轻松卖闲置,放心淘二手闲鱼.淘宝二手是一个社区化的二手闲置交易市场,不仅支持各种同城及线上的担保交易,更安全,同时还有最专业的放心购二手商家,让你轻松在这买卖二手闲置。https://Goofish.com/

 GG

曲线救国

但是后面发现可以通过淘宝手机版网页版的入口直接进入咸鱼网页版的入口(反正都是爬取怎么进的不重要啦!!!)

链接放着里了,怎么进别问我了

淘宝淘宝网 - 亚洲较大的网上交易平台,提供各类服饰、美容、家居、数码、话费/点卡充值… 数亿优质商品,同时提供担保交易(先收货后付款)等安全交易保障服务,并由商家提供退货承诺、破损补寄等消费者保障服务,让你安心享受网上购物乐趣!Https://main.m.taobao.com/index.html

 好了第一大难题(找到网页版入口解决了)

 模拟搜索

接下来就是利用python的selenium包模拟点击

右键搜索款点击检查就可以定位到该元素的xpath的路径(新版的selenium有许多不同的用法我会在下一章中进行代码实现,这一章主要讲解理论

 然后在Python代码中输入你要搜索的文字内容再回车即可

第二大难题——登录

在这一个咸鱼网页版中,你必须要登录才可以

 这样你就要先登录才可以访问网页

最大难题——登录界面滑块验证

提一嘴

在这个登录页面中,登录页面是iframe内嵌入其中的页面的

所以你无法直接定位到登录框(我搞了好久反应过来,真的离谱!!)

登录cookie获取

所以你有两种选择

第一种

直接在python中打开登录页面进入登录页面然后登录直接用selenium库中的get_cookie获取cookie并保存

登录https://passport.goofish.com/mini_login.htm?ttid=h5@iframe&redirectType=iframeRedirect&returnUrl=//h5.m.goofish.com/app/vip/h5-WEBapp/lib-login-message.html?origin=https%253A%252F%252Fh5.m.goofish.com&appName=xianyu&appEntrance=web&isMobile=true想法相对来说不这么绕,但是遗憾的是我无法登录(因为登录有滑块验证,我是几乎过不了的,手动都不行)

第二种

在正常网页中登入之后用浏览器插件提取出来

我用的是cookie editor 

在网页版中正常登录可以过滑块验证

之后用插件复制出JSON文件,并且进行粘贴

 第四大难题——无法使用导出的cookie

使用代码导入是报错

 assert cookie_dict[‘sameSite‘] in [‘Strict‘, ‘Lax‘] AssertionError()

 原因

提取出来的cookie中samesite的值不为strict以及lax两种中的一种,他就会报错

解决办法

只需要在json字典中把samesite的值全部改为Strict即可

最后

然后添加cookie然后刷新界面就可以发现搜索结果出来了

出现小问题

由于然后短时间内多次请求依旧会有阴间的滑块验证,所以我推荐设置好后半小时爬取一次即可

总结

这一次实战经历真的让我遇到了selenium许多奇奇怪怪的反爬手段,也是让我可以大幅度提升自己实战经验的一个经历,前前后后排bug,绕反爬,这一个项目打了整整两天。累die

下一篇博客(大部分代码实现)

用python来爬取某鱼的商品信息(2/2)_木木em哈哈的博客-CSDN博客首先要说的是这个通过python不如通过app抓包来的稳定页面中你登录的cookie的失效时间是不确定的,所以你可能需要经常更新cookie(看个人情况)无法频繁(比如5分钟一次)搜索,否则会跳滑块验证,或者你有多个账号也可以搞(大概也就这个流程)写出来的代码只是提取出来网页源代码——其实都提取出网页源代码了,使用就只有一个筛选了(csdn上有大把的优质博主和大佬教你通过源代码过滤有用的信息)当然如果需要的话我可以再水一篇博客。https://blog.csdn.net/mumuemhaha/article/details/132260466?spm=1001.2014.3001.5501

来源地址:https://blog.csdn.net/mumuemhaha/article/details/132238660

--结束END--

本文标题: 用python来爬取某鱼的商品信息(1/2)

本文链接: https://lsjlt.com/news/384298.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 用python来爬取某鱼的商品信息(1/2)
    目录 前言 第一大难题——找到网站入口 曲线救国  模拟搜索 第二大难题——登录 提一嘴 登录cookie获取 第一种 第二种  第四大难题——无法使用导出的cookie  原因 解决办法 最后 出现小问题 总结 下一篇博客(大部分代码实现...
    99+
    2023-08-31
    python 开发语言
  • 用python来爬取某鱼的商品信息(2/2)
    目录 上一篇文章 本章内容 设置浏览器为运行结束后不关闭(可选) 定位到搜索框的xpath地址 执行动作 获取cookie 保存为json文件 修改cookie的sameSite值并且导入cookie 导入cookie(出错) 导入cook...
    99+
    2023-08-31
    python 开发语言 爬虫 selenium html
  • 使用Python怎么爬取淘宝的商品信息
    这期内容当中小编将会给大家带来有关使用Python怎么爬取淘宝的商品信息,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。python有哪些常用库python常用的库:1.requesuts;2.scrapy...
    99+
    2023-06-14
  • Python爬取京东商品信息评论存并进MySQL
    目录构建mysql数据表第一版:第二版:第三版:构建mysql数据表 问题:使用SQL alchemy时,非主键不能设置为自增长,但是我想让这个非主键仅仅是为了作为索引,autoin...
    99+
    2024-04-02
  • 用python爬取分析淘宝商品信息详解技术篇
    目录背景介绍一、模拟登陆二、爬取商品信息1. 定义相关参数2. 分析并定义正则3. 数据爬取三、简单数据分析1.导入库2.中文显示3.读取数据4.分析价格分布5.分析销售地分布6.词...
    99+
    2024-04-02
  • 用Python获取亚马逊商品信息
    目录引言一、获取亚马逊列表页的信息二、获取详情页信息三、代理设置 四、全部代码总结引言         亚马逊网站相较于国内的购物网...
    99+
    2024-04-02
  • Python怎么爬取京东商品信息评论存并进MySQL
    这篇文章主要介绍“Python怎么爬取京东商品信息评论存并进MySQL”,在日常操作中,相信很多人在Python怎么爬取京东商品信息评论存并进MySQL问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Pytho...
    99+
    2023-06-30
  • python项目实战:利用selenium+浏览器爬取淘宝商品信息
    前言今天为大家介绍一个Python利用selenium打开浏览器的方式来爬取淘宝商品的信息,下面就来看看,关于selenium的知识点,是如何做到控制浏览器获取网站的信息导入第三方库...
    99+
    2023-06-02
  • 如何使用python网络爬虫基于selenium爬取斗鱼直播信息
    这篇文章给大家分享的是有关如何使用python网络爬虫基于selenium爬取斗鱼直播信息的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。一、本文使用的第三方包和工具python 3.8  谷歌...
    99+
    2023-06-29
  • 怎么用Python获取亚马逊商品信息
    这篇文章将为大家详细讲解有关怎么用Python获取亚马逊商品信息,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。引言        亚马逊网站相较于国内的购物网站,可...
    99+
    2023-06-26
  • 怎么利用Python网络爬虫来提取信息
    怎么利用Python网络爬虫来提取信息,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。下面小编就为大家带来一篇Python网络爬虫与信息提取(实例讲解)。小编觉得挺不错的,现在就...
    99+
    2023-06-02
  • 利用Python通过商品条形码查询商品信息的实现示例
    目录一 商品条形码二 查询商品条形码的目的三 Python实现3.1 爬取网站介绍3.2 python代码实现提前说明,由于博文重在讲解,代码一体性有一定程度的破坏。如想要省事需要完...
    99+
    2024-04-02
  • 用Python爬取618当天某东热门商品销量数据,看看大家喜欢什么!
    前言 本文结构如下: 1、爬取某东畅销商品数据 2、清洗数据并并进行简单分析 3、将数据进行可视化展示 数据的字段如下: 一共爬取了243条某东畅销商品数据 一、获取数据 1. 分...
    99+
    2024-04-02
  • Python爬取用户观影数据并分析用户与电影之间的隐藏信息!
    一、前言 二、爬取观影数据 https://movie.douban.com/ 在『豆瓣』平台爬取用户观影数据。 爬取用户列表 网页分析 为了获取用户,我选择了其中一部...
    99+
    2024-04-02
  • Python大神利用正则表达式教你搞定京东商品信息的示例分析
    Python大神利用正则表达式教你搞定京东商品信息的示例分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。京东(JD.com)是中国最大的自营式电商企业,2015年第一季度在中...
    99+
    2023-06-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作