返回顶部
首页 > 资讯 > 后端开发 > Python >python爬取网易云音乐排行榜实例代码
  • 656
分享到

python爬取网易云音乐排行榜实例代码

2024-04-02 19:04:59 656人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

目录网易云音乐排行榜歌曲及评论爬取一、模拟登录二、排行榜数据爬取三、排行榜评论获取总结网易云音乐排行榜歌曲及评论爬取 主要注意问题:selenium 模拟登录、iframe标签定位、

网易云音乐排行榜歌曲及评论爬取

主要注意问题:selenium 模拟登录、iframe标签定位、页面元素提取。
在利用selenium定位元素并取值的过程中遇到问题。比如xpath正确但无法定位,在进行翻页提取评论的过程中,利用selenium似乎不能提取不同页的数据,比如,明明定位的第三页的评论数据,而只能返回第一页的评论数据。

一、模拟登录

selenium 定位元素模拟人的操作进行登录,直接上代码:


//模拟登录
import pandas as pd
from selenium import WEBdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from selenium.webdriver import ActionChains
from lxml import etree
import time
from datetime import datetime,timedelta
wyy_url = 'https://music.163.com/'
driver = webdriver.Chrome()
driver.get(wyy_url)
driver.maximize_window() #全屏
time.sleep(2)
driver.find_element_by_xpath("//a[@class = 'link s-fc3']").click()
time.sleep(2)
driver.find_element_by_xpath("//a[@class='u-btn2 other']").click() #选择其他方式登录
#账号、密码登录
driver.find_element_by_xpath("//input[@type='checkbox']").click() #同意条款
time.sleep(0.5)
driver.find_element_by_xpath("//a[@class='u-btn2 u-btn2-2']").click()
#选择手机号密码登录
driver.find_element_by_xpath("//a[@class='f-fr s-fc3 pwdlogin']").click()
time.sleep(1)
driver.find_element_by_id("p").send_keys('xxx') #这里输入你的id
driver.find_element_by_id("pw").send_keys('xxx') #这里输入密码
time.sleep(1)
#点击登录
driver.find_element_by_xpath("//a[@class='j-primary u-btn2 u-btn2-2']").click()
time.sleep(1)

二、排行榜数据爬取

当时尝试直接用selenium定位标签取值,并没有返回有效结果。在后面爬取评论时,也遇到此问题。于是先获取页面内容在进行分析。


// 排行榜
base_url = "Https://music.163.com/#/discover/toplist?id="
bang_typical = {'飙升榜':19723756,'新歌榜':3779629,'原创榜':2884035,'热歌榜':3778678}
#选择榜单
bang = input('请输入榜单:')
#构造榜单对应的链接
url = base_url + str(bang_typical[bang]) 
print('开始分析:-%s' %(bang))
#进入榜单
driver.get(url) 
time.sleep(3) 
#iframe标签定位,必要的,否则无法定位其他标签
_iframe = driver.find_element_by_xpath("//iframe[@id='g_iframe']") # 找到iframe标签
driver.switch_to.frame(_iframe)
time.sleep(1)
page_text = driver.execute_script("return document.documentElement.outerhtml")
#获取页面
html = etree.HTML(page_text) 
trs = html.xpath('//tbody/tr')
rank_list = []
title_list = []
span_list = []
singer_list = []
for tr in trs:
    rank = tr.xpath(".//span[@class='num']/text()")[0]    #注意xpath获取到的是列表,需提取其元素
    title = tr.xpath(".//b/@title")[0]
    span = tr.xpath(".//td[@class=' s-fc3']/span[@class='u-dur ']/text()")[0]
    singer = tr.xpath(".//div[@class='text']/span/@title")[0]
    rank_list.append(rank)
    title_list.append(title)
    span_list.append(span)
    singer_list.append(singer)
#输出榜单结果
df_bang = pd.DataFrame({'排名':rank_list,'歌名':title_list,'时长':span_list,'歌手':singer_list})

三、排行榜评论获取

主要是评论日期的格式转换,评论内容的清洗


// 评论
# 日期清洗函数
def change_time(time):
    now = datetime.now()
    day_y = datetime.strftime(now - timedelta(1),'%Y-%m-%d') #计算昨天
    day = now.strftime('%Y-%m-%d')
    year = now.strftime('%Y')
    if '年' in time:                                         #非今年
        new_time = time.replace('年','-').replace('月','-').replace('日','')
    elif '昨天' in time:
        new_time = time.replace('昨天',day_y+' ')  
    elif '前' in time:                                      #前天
        minut = int(time[:time.index('分')])
        new_time = (now + timedelta(minutes=-minut)).strftime('%Y-%m-%d %H:%M')
    elif len(time) == 5:                                   #今天
        new_time = day + ' ' + time
    else:                                                  #最近 **月**日 **:**
        y = '2021-'
        time = time.replace('月','-').replace('日','')
        new_time = y + time  
    return new_time      

#评论清洗
def change_review(r):
    if ':' in r:
        r_ = r.split(':')[1]
    else:
        r_ = r
    return r_

#评论点赞
def change_likes(l):
    if l != []:
        l_ = int(l.split('(')[1].split(')')[0])
    else:
        l_ = 0
    return l_

#拉动滚动条至翻页按钮处
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)") 

#获取页面信息
num = input('请输入需要爬取的页面总数:')  #想要爬取评论的页数,
#这里的思路是先通过翻页将获取到的所有页面的所有内容存至列表,再对列表遍历。
#因为当时直接用selenium 定位返回结果不对,当然你们也可以用selenium直接试试。
html_list=[] 
for i in range(int(num)):
    page_text = driver.execute_script("return document.documentElement.outerHTML")
    html = etree.HTML(page_text)#获取页面
    html_list.append(html)
    #翻页
    driver.find_elements_by_xpath("//div[contains(@class,'u-page')]/a")[-1].click()
    time.sleep(4)
    WebDriverWait(driver, 300, 0.1).until(EC.presence_of_element_located((By.XPATH, "//div[@class='cmmts j-flag']")))
    print(f'第{i+1}页爬取成功')

rev_list=[] #所有评论的列表
dat_list=[] #对应日期的列表
for review_page in html_list:
    raw_reviews = review_page.xpath("//div[@class='cmmts j-flag']//div[@class='cnt f-brk']/text()")#提取页面所有评论
    raw_reviews_ = [i for i in raw_reviews if ":" in i] #保证长度一致
    rv_date = review_page.xpath("//div[@class='cmmts j-flag']//div[@class='cntwrap']/div[@class='rp']/div[@class='time s-fc4']/text()")
    review_list = [change_review(r) for r in raw_reviews_]
    date_list = [change_time(d) for d in rv_date]
    rev_list.extend(review_list)   
    dat_list.extend(date_list) 
print('分析完成')
driver.quit()

运行结果:

1、排行榜:

在这里插入图片描述

2、评论:

在这里插入图片描述
在这里插入图片描述

总结

哈哈,用了快两年的csdn, 光顾着白嫖文章。这也是我的第一个帖子,也没啥经验,有啥问题的,还请各位指正!

到此这篇关于python爬取网易云音乐排行榜数据代码的文章就介绍到这了,更多相关Python爬取网易云内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: python爬取网易云音乐排行榜实例代码

本文链接: https://lsjlt.com/news/160743.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python爬取网易云音乐排行榜实例代码
    目录网易云音乐排行榜歌曲及评论爬取一、模拟登录二、排行榜数据爬取三、排行榜评论获取总结网易云音乐排行榜歌曲及评论爬取 主要注意问题:selenium 模拟登录、iframe标签定位、...
    99+
    2024-04-02
  • python爬取酷狗音乐排行榜
    本文为大家分享了python爬取酷狗音乐排行榜的具体代码,供大家参考,具体内容如下   ...
    99+
    2023-01-31
    酷狗 音乐排行榜 python
  • python爬虫+词云图,爬取网易云音乐
    又到了清明时节,用python爬取了网易云音乐《清明雨上》的评论,统计词频和绘制词云图,记录过程中遇到一些问题 爬取网易云音乐的评论 一开始是按照常规思路,分析网页ajax的传参情况。看到参数都是加密过的,在网上参考别人之前爬虫的思路。发...
    99+
    2023-01-31
    云图 爬虫 网易
  • Python爬取网易云音乐热门评论
    最近在研究文本挖掘相关的内容,所谓巧妇难为无米之炊,要想进行文本分析,首先得到有文本吧。获取文本的方式有很多,比如从网上下载现成的文本文档,或者通过第三方提供的API进行获取数据。但是有的时候我们想要的数据...
    99+
    2022-06-04
    网易 热门 音乐
  • python语言怎么爬取网易云音乐
    小编给大家分享一下python语言怎么爬取网易云音乐,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!正式进入主题首先还是去找目标网页并开始分析网页结构,如下上面的三...
    99+
    2023-06-02
  • Python项目实战:爬取网易云音乐评论
    前言相信大家都非常喜欢听音乐的吧,每一首歌背后都有一个故事,有爱情,有离别,有仇恨,有不舍等等,听着自己喜欢总会唏嘘,我不仅喜欢听歌,还喜欢看歌曲下面的评论,很多人都阐述了自己对歌曲的看法和理解,除了一些,你懂的..、废话不多说了。上代码吧...
    99+
    2023-06-02
  • Python反爬实战掌握酷狗音乐排行榜加密规则
    目录效果展示爬取目标工具使用项目思路解析简易源码分享效果展示 爬取目标 网址:酷我音乐 工具使用 开发工具:pycharm 开发环境:python3.7, Windows10 使...
    99+
    2024-04-02
  • Python爬取网易云音乐上评论火爆的歌曲
    前言 网易云音乐这款音乐APP本人比较喜欢,用户量也比较大,而网易云音乐之所以用户众多和它的歌曲评论功能密不可分,很多歌曲的评论非常有意思,其中也不乏很多感人的评论。但是,网易云音乐并没有提供热评排行榜和按...
    99+
    2022-06-04
    网易 火爆 歌曲
  • Python爬虫实战之网易云音乐加密解析附源码
    目录环境知识点第一步第二步开始代码先导入所需模块请求数据提取我们真正想要的 音乐的名称 id导入js文件保存文件完整代码环境  python3.8 pyc...
    99+
    2024-04-02
  • 利用Python网络爬虫爬取各大音乐评论的代码
    目录 python爬虫--爬取网易云音乐评论1.简易看出评论是动态加载的,一定是ajax方式。3.去查看post请求所上传的数据4.首先去查看请求是经过那些js到达服务器的...
    99+
    2024-04-02
  • Python 3行代码提取音乐高潮部分
    目录1.原理简介2.代码编写2.1 安装所需要的项目2.2 编写代码3.效果检验4.批量提取前言: 有些时候,为了设定手机铃声或者发抖音视频,我们会耗费大量时间在剪辑音乐高潮部分上。...
    99+
    2024-04-02
  • 3行Python代码实现剪辑音乐
    目录前言1.音量变化2.重复片段3.渐进渐出4.反转音乐前言 你没看错,Python剪辑音乐,只需要3行语句就能瞬间完成,比如我要剪辑33秒到1分10秒的音乐片段: from pyd...
    99+
    2024-04-02
  • 13行代码实现爬取豆瓣250电影榜单
    原理很简单,通过发送resquest请求获取服务器的response,再使用xpath提取其中我们需要的数据,然后保存到文件中。 先看看我爬取的结果: 首先,需要用到的模块有两个: •requests •lxml 第一步,我们先用Ch...
    99+
    2023-01-30
    豆瓣 榜单 代码
  • python利用多线程+队列技术爬取中介网互联网网站排行榜
    目录目标站点分析编码时间目标站点分析 本次要抓取的目标站点为:中介网,这个网站提供了网站排行榜、互联网网站排行榜、中文网站排行榜等数据。 网站展示的样本数据量是 :58341。 采集...
    99+
    2024-04-02
  • springboot+redis实现微博热搜排行榜的示例代码
    目录技术模拟思路:步骤1:先初始化1个月的历史数据步骤2:定时刷新数据步骤3:排行榜查询接口技术模拟思路: 采用26个英文字母来实现排行,随机为每个字母生成一个随机数作为score ...
    99+
    2024-04-02
  • Python项目实战:爬去网易音乐评论并生成图表样式
    前言今天为大家一个爬取网易云音乐评论的Python案例,并用Python的第三方库来生成图表样式,可以清晰地看到评论的详细信息导入第三方库...
    99+
    2023-06-02
  • 【python】爬取豆瓣电影排行榜Top250存储到Excel文件中【附源码】
    英杰社区https://bbs.csdn.net/topics/617804998 一、背景         近年来,Python在数据爬取和处理方面的应用越来越广泛。本文将介绍一个基于Python的爬虫程 序,用于抓取豆瓣电影Top...
    99+
    2024-01-21
    python 人工智能 开发语言
  • 微信小程序实战之网易云音乐歌曲详情页实现代码
    这里记录一下做网易云小程序的音乐播放详情页面的代码。 音乐播放界面的主要的重点有几个:   1、磁盘和摇杆的旋转效果,这里运用了css的动画属性   2、音乐播放...
    99+
    2024-04-02
  • python怎么利用多线程+队列技术爬取中介网互联网网站排行榜
    本篇内容介绍了“python怎么利用多线程+队列技术爬取中介网互联网网站排行榜”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!目标站点分析本次...
    99+
    2023-06-30
  • Python爬虫爬取美剧网站的实现代码
    一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间。之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了。但是,作为一个宅diao的我又...
    99+
    2022-06-04
    爬虫 美剧 代码
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作