首页 > 资讯 > 后端开发 > Python >如何使用python爬虫抓取弹幕

932

分享到

如何使用python爬虫抓取弹幕

2023-06-29 02:06:37 932人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

这篇文章主要讲解了“如何使用python爬虫抓取弹幕”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“如何使用python爬虫抓取弹幕”吧！一、爬虫是什么？百度百科这样说：自动获取网页内容的程序

这篇文章主要讲解了“如何使用python爬虫抓取弹幕”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“如何使用python爬虫抓取弹幕”吧！

一、爬虫是什么？

百度百科这样说：自动获取网页内容的程序。在我理解看来，爬虫就是~~“在网络上爬来爬去的…”住口！~~
那么接下来就让我们看看如何养搬运B站弹幕的“虫”吧

二、饲养步骤

1.请求弹幕

首先，得知道爬取的网站url是什么。对于B站弹幕而言，弹幕所在位置是有固定格式的：

Http://comment.bilibili.com/+cid+.xml

ok,那么问题来了，cid是什么呢？不用管是什么，我告诉你怎么获取。

打开视频后点击F12,切换到“网络”，在筛选器处填入“cid”进行筛选。

如何使用python爬虫抓取弹幕

点击筛选出的网络信息，在右端Payload处找到cid

如何使用python爬虫抓取弹幕

到此，我们就知道了何同学视频弹幕的网络链接：

http://comment.bilibili.com/499893135.xml

接着就是发送网络请求，获取网络页面资源。Python有很多发送网络请求的库。比如：

urllib库
requests库

我们用reaquests库演示

发送请求的代码如下

（示例）：

#【何同学】我用108天开了个灯......视频的cid：499893135#弹幕所在地url = "http://comment.bilibili.com/499893135.xml"#发送请求req = requests.get(url = url)#获取内容响应的内容html_byte = req.content#将byte转为strhtml_str = str(html_byte,"utf-8")

还有个值得提一下的地方是，发送请求的请求头可以加上，伪装自己是浏览器访问。可以通过header参数，加上user-agent，获取方式如下：

如何使用python爬虫抓取弹幕

那么，代码就是下面这样了：

#假装自己是浏览器header ={    'User-Agent':'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43'}#【何同学】我用108天开了个灯......视频的cid：499893135#弹幕所在地url = "http://comment.bilibili.com/499893135.xml"#发送请求req = requests.get(url = url, headers=header)#获取内容响应的内容html_byte = req.content#将byte转为strhtml_str = str(html_byte,"utf-8")

2.解析弹幕

html_str是html文件的格式，我们需要对其进行处理，来获取我们想要的信息。这个时候，BeautifulSoup库就要闪亮登场了,我们用它来处理得到的html文件

代码如下（示例）：

#解析    soup = BeautifulSoup(html,'html.parser')    #找到html文件里的<d>标签    results = soup.find_all('d')    #把标签里的文本提取出来    contents = [x.text for x in results]    #存为字典    dic ={"contents" : contents}

contents就是弹幕字符串列表了，存成字典是为了下一步…

3.存储弹幕

把弹幕信息存储成excel，也有好多库可以用。比如：

xlwt库
pandas库

我们就用pandas库把

代码如下（示例）：

把用第二步得到的字典创建dataFrame，然后用pandas库的一个api存下就行了

#用字典创建了一个电子表格df = pd.DataFrame(dic)df["contents"].to_excel('htx.xlsx')

4.总代码

import requestsfrom bs4 import BeautifulSoupimport pandas as pd def main():    html = askUrl()    dic =analyse(html)    writeExcel(dic) def askUrl():    #假装自己是浏览器    header ={        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43'    }    #【何同学】我用108天开了个灯......视频的cid：499893135    #弹幕所在地    url = "http://comment.bilibili.com/499893135.xml"    req = requests.get(url = url, headers=header)    html_byte = req.content#字节    html_str = str(html_byte,"utf-8")    return html_str def analyse(html):    soup = BeautifulSoup(html,'html.parser')    results = soup.find_all('d')    #x.text表示要放到contents中的值    contents = [x.text for x in results]    #保存结果    dic ={"contents" : contents}    return dic def writeExcel(dic):    #用字典创建了一个电子表格    df = pd.DataFrame(dic)    df["contents"].to_excel('htx.xlsx') if __name__ == '__main__':    main()

感谢各位的阅读，以上就是“如何使用python爬虫抓取弹幕”的内容了，经过本文的学习后，相信大家对如何使用python爬虫抓取弹幕这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是编程网，小编将为大家推送更多相关知识点的文章，欢迎关注！

您可能感兴趣的文档:

--结束END--

本文标题: 如何使用python爬虫抓取弹幕

本文链接: https://lsjlt.com/news/322022.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

如何使用python爬虫抓取弹幕

一、爬虫是什么？

二、饲养步骤

1.请求弹幕

2.解析弹幕

3.存储弹幕

4.总代码

如何使用python爬虫抓取弹幕

你会使用python爬虫抓取弹幕吗

如何用Python爬虫抓取代理IP

Python爬虫抓取csdn博客

python爬虫怎么抓取html

Python爬虫抓取时如何更换ip地址

Python制作爬虫抓取美女图

Python爬虫抓取技术的门道

怎么用Python爬虫抓取智联招聘

怎么用python爬虫抓取网页文本

Python爬虫实现自动化爬取b站实时弹幕的方法

如何使用Python爬虫爬取网站图片

Python爬虫之使用BeautifulSoup和Requests抓取网页数据

Python爬虫抓取时怎么更换ip

Python 简单爬虫抓取糗事百科

Python如何获取弹幕

如何使用Python爬虫实现抓取电影网站信息并入库

python爬虫如何爬取图片

怎么使用NodeJs爬虫抓取古代典籍

Python抓取框架Scrapy爬虫入门：页面提取

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义