返回顶部
首页 > 资讯 > 后端开发 > Python >python 爬取mm信息
  • 393
分享到

python 爬取mm信息

信息pythonmm 2023-01-31 01:01:46 393人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

# -*- coding:utf-8 -*-   import requests from bs4 import BeautifulSoup import sys import re reload(sys) sys.setdefaulten

# -*- coding:utf-8 -*-
 
import requests
from bs4 import BeautifulSoup
import sys
import re
reload(sys)
sys.setdefaultencoding('utf-8')


for num in range(1,4300):
    try:
        URL = 'Http://mm.taobao.com/JSON/request_top_list.htm?page=%d' % num
        #print "现在爬取的网站url是:" + URL
        response = requests.get(URL) 
        response.encoding = 'gb2312'
        text = response.text 
        soup = BeautifulSoup(text, 'lxml') 
        for model in soup.select(".list-item"):
            try:
                model_id =  model.find('span', {'class': 'friend-follow J_FriendFollow'})['data-userid']
                json_url = "http://mm.taobao.com/self/info/model_info_show.htm?user_id=%d" % int(model_id)
                response_json = requests.get(json_url)
                response_json.encoding = 'gb2312'
                text_response_json = response_json.text
                soup_json = BeautifulSoup(text_response_json, 'lxml')
                
                print "***********************************" + model.find('a', {'class': 'lady-name'}).string + "*********************************"
                print "模特的名字:" + model.find('a', {'class': 'lady-name'}).string
                print "模特的年龄:"+ model.find('p', {'class': 'top'}).em.strong.string
                print "生日:" + soup_json.find('li', {'class': 'mm-p-cell-left'}).span.string
                blood =  soup_json.find_all('li', {'class': 'mm-p-cell-right'})[1].span.string
                if blood is None:
                    blood = "无"
                print "血型:" + blood
                print "学校/专业:" + soup_json.find_all('li')[5].span.string
                print "身高:" + soup_json.find('li', {'class': 'mm-p-small-cell mm-p-height'}).p.string
                print "体重:" + soup_json.find('li', {'class': 'mm-p-small-cell mm-p-weight'}).p.string
                print "三围:" + soup_json.find('li', {'class': 'mm-p-small-cell mm-p-size'}).p.string
                print "罩杯:" + soup_json.find('li', {'class': 'mm-p-small-cell mm-p-bar'}).p.string
                print "鞋码:" + soup_json.find('li', {'class': 'mm-p-small-cell mm-p-shose'}).p.string
                print "模特所在地:"+ model.find('p', {'class': 'top'}).span.string
                print "模特的id:"+ model.find('span', {'class': 'friend-follow J_FriendFollow'})['data-userid']
                print "模特的标签:"+ model.find_all('p')[1].em.string
                print "模特的粉丝数:"+ model.find_all('p')[1].strong.string
                print "模特的排名:"+ [text for text in model.find('div', {'class': 'popularity'}).dl.dt.stripped_strings][0]
                print model.find('ul', {'class': 'info-detail'}).get_text(" ",strip=True)
                print "模特的个人资料页面:" +"http:"+ model.find('a', {'class': 'lady-name'})['href']			             		
                print "模特的个人作品页面:" +"http:"+ model.find('a', {'class': 'lady-avatar'})['href']
                print "模特的个人头像:" + "http:" + model.find('img')['src']
                print "***********************************" + model.find('a', {'class': 'lady-name'}).string + "*********************************"
                print "\n"
		
            except:
                print "error"
    except:
        print num + "page is error"


--结束END--

本文标题: python 爬取mm信息

本文链接: https://lsjlt.com/news/183884.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python 爬取mm信息
    # -*- coding:utf-8 -*-   import requests from bs4 import BeautifulSoup import sys import re reload(sys) sys.setdefaulten...
    99+
    2023-01-31
    信息 python mm
  • python爬取主播信息
    之前学过python的爬虫技术,现在回顾一下看看还会不会,果然有坑。 先爬取了微博评论网友的id代码如下 import requestsurl = 'https://m.weibo.cn/api/comments/showid=41886...
    99+
    2023-01-31
    主播 信息 python
  • 用python爬虫爬取CSDN博主信息
    一、项目介绍 爬取网址:CSDN首页的Python、Java、前端、架构以及数据库栏目。简单分析其各自的URL不难发现,都是https://www.csdn.net/nav/+栏目名...
    99+
    2024-04-02
  • Python爬虫之爬取二手房信息
    前言 说到二手房信息,不知道你们心里最先跳出来的公司(网站)是什么,反正我心里第一个跳出来的是网站是 58 同城。哎呦,我这暴脾气,想到就赶紧去干。 但很显然,我失败了。说显然,而不...
    99+
    2024-04-02
  • python爬取nba今天的信息
    最近无聊在写python爬虫,分享一个爬去nba今天信息的python脚本,可能没写的美观,有优化的请大神指点!➜  /test sudo vim nba.py #!/usr/bin/python #-*- coding:utf-8 -*-...
    99+
    2023-01-31
    信息 python nba
  • python 爬取新浪微博信息
       新浪微博爬取的话需要设计到登录,这里我没有模拟登录,而是使用cookie进行爬取。获取cookie:代码:#-*-coding:utf8-*- from bs4 import BeautifulSoup import request...
    99+
    2023-01-31
    新浪 信息 python
  • python 爬取淘宝模特信息
      通过本篇博文,介绍一下我对指定信息进行爬取的时候的思路,顺便贴一下代码。 一、首先获取想要爬取的网站的url链接的规则变化可以看出来该网站页面的url结构简单,变化的只是https://mm.taobao.com/json/reques...
    99+
    2023-01-31
    模特 淘宝 信息
  • 怎么用python爬取douban信息
    本篇内容介绍了“怎么用python爬取douban信息”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!首先导入库定义保存地址函数解析网址打印爬...
    99+
    2023-06-02
  • python爬取微信信息--显示性别/地
    看到一篇有意思的博客 利用微信开放的接口itchat 可以获取登录的微信好友信息 并且利用图像工具显示分析结果 非常的有意思 记录下实现过程 并提供可执行代码 首先要 import itchat 库 这个是微信开源的一个接口 用于登录微信...
    99+
    2023-01-30
    性别 信息 python
  • Python网络爬虫与信息提取
    Requests安装 用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests >>> r = requests.get("...
    99+
    2023-01-31
    爬虫 网络 信息
  • Python爬虫项目--爬取某宝男装信息
    本次爬取用到的知识点有: 1. selenium 2. pymysql 3  pyquery 正文 1. 分析目标网站 1. 打开某宝首页, 输入"男装"后点击"搜索", 则跳转到"男装"的搜索界面. 2. 空白处"右击"再点击"检查"审...
    99+
    2023-01-30
    爬虫 男装 项目
  • Python爬虫实战之爬取某宝男装信息
    目录知识点介绍实现步骤1. 分析目标网站2. 获取单个商品界面3. 获取多个商品界面4. 获取商品信息5. 保存到MySQL数据库完整代码知识点介绍 本次爬取用到的知识点有: 1. ...
    99+
    2024-04-02
  • Python爬虫获取基金变动信息
    目录1 前言2 抓取变动信息2.1 基金的变动信息获取2.2 基金阶段信息的抓取3 最终结果展现1 前言 前面文章Python爬虫获取基金列表、Python爬虫获取基金基本信息我们已...
    99+
    2024-04-02
  • Python爬虫获取基金基本信息
    目录1 前言2 如何抓取基本信息3 xpath 获取数据4 bs4 获取数据5 最终结果展现1 前言 上篇文章Python爬虫获取基金列表我们已经讲述了如何从基金网站上获取基金的列表...
    99+
    2024-04-02
  • Python如何爬取某宝男装信息
    本篇内容介绍了“Python如何爬取某宝男装信息”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!实现步骤1. 分析目标网站 打开某宝首页, 输...
    99+
    2023-06-21
  • Python灰帽编程——网页信息爬取
    文章目录 网页信息爬取1. 相关模块1.1 requests 模块1.1.1 模块中的请求方法1.1.2 请求方法中的参数1.1.3 响应对象中属性 1.2 RE 模块1.2.1 匹配...
    99+
    2023-09-24
    python 开发语言 网络安全 系统安全 python脚本 爬虫 requests模块
  • Python怎么爬取城市租房信息
    这篇文章主要介绍了Python怎么爬取城市租房信息的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python怎么爬取城市租房信息文章都会有所收获,下面我们一起来看看吧。思路:先单线程爬虫,测试可以成功爬取之后再...
    99+
    2023-06-30
  • Python如何爬取b站番剧信息
    Python如何爬取b站番剧信息,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。相信很多人都是B站的粉丝吧因为确实是一个类目都比较齐全的网站,还有各种各样的新番,这是其他网站没有...
    99+
    2023-06-02
  • 【Python爬虫】酒店信息爬取(包括10000+酒店信息条目,80000+图片)
    软工课程项目需要Booking酒店数据,需要酒店的信息和图片,最后一共获得2G+的的数据,信息包括10000+酒店的基本数据,和80000+的酒店图片,因为数据量较大(我怕吃牢饭🥲)...
    99+
    2023-10-11
    python 爬虫 开发语言
  • 如何使用python爬虫爬取大学排名信息
    这篇文章将为大家详细讲解有关如何使用python爬虫爬取大学排名信息,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。 这次爬取的网址请搜索“阿凡题”(纯技术讨论)“阿凡题”(纯技术讨论) 在该网址选择查院校...
    99+
    2023-06-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作