返回顶部
首页 > 资讯 > 后端开发 > Python >如何使用python爬虫抓取弹幕
  • 932
分享到

如何使用python爬虫抓取弹幕

2023-06-29 02:06:37 932人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要讲解了“如何使用python爬虫抓取弹幕”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何使用python爬虫抓取弹幕”吧!一、爬虫是什么?百度百科这样说:自动获取网页内容的程序

这篇文章主要讲解了“如何使用python爬虫抓取弹幕”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何使用python爬虫抓取弹幕”吧!

一、爬虫是什么?

百度百科这样说:自动获取网页内容的程序。在我理解看来,爬虫就是~~“在网络上爬来爬去的…”住口!~~
那么接下来就让我们看看如何养搬运B站弹幕的“虫”吧

二、饲养步骤

1.请求弹幕

首先,得知道爬取的网站url是什么。对于B站弹幕而言,弹幕所在位置是有固定格式的:

Http://comment.bilibili.com/+cid+.xml

ok,那么问题来了,cid是什么呢?不用管是什么,我告诉你怎么获取。

打开视频后点击F12,切换到“网络”,在筛选器处填入“cid”进行筛选。

如何使用python爬虫抓取弹幕

点击筛选出的网络信息,在右端Payload处找到cid

如何使用python爬虫抓取弹幕

到此,我们就知道了何同学视频弹幕的网络链接:

http://comment.bilibili.com/499893135.xml

接着就是发送网络请求,获取网络页面资源。Python有很多发送网络请求的库。比如:

  • urllib库

  • requests库

我们用reaquests库演示

发送请求的代码如下

(示例):

#【何同学】我用108天开了个灯......视频的cid:499893135#弹幕所在地url = "http://comment.bilibili.com/499893135.xml"#发送请求req = requests.get(url = url)#获取内容响应的内容html_byte = req.content#将byte转为strhtml_str = str(html_byte,"utf-8")

还有个值得提一下的地方是,发送请求的请求头可以加上,伪装自己是浏览器访问。可以通过header参数,加上user-agent,获取方式如下:

如何使用python爬虫抓取弹幕

那么,代码就是下面这样了:

#假装自己是浏览器header ={    'User-Agent':'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43'}#【何同学】我用108天开了个灯......视频的cid:499893135#弹幕所在地url = "http://comment.bilibili.com/499893135.xml"#发送请求req = requests.get(url = url, headers=header)#获取内容响应的内容html_byte = req.content#将byte转为strhtml_str = str(html_byte,"utf-8")

2.解析弹幕

html_str是html文件的格式,我们需要对其进行处理,来获取我们想要的信息。这个时候,BeautifulSoup库就要闪亮登场了,我们用它来处理得到的html文件

代码如下(示例):

#解析    soup = BeautifulSoup(html,'html.parser')    #找到html文件里的<d>标签    results = soup.find_all('d')    #把标签里的文本提取出来    contents = [x.text for x in results]    #存为字典    dic ={"contents" : contents}

contents就是弹幕字符串列表了,存成字典是为了下一步&hellip;

3.存储弹幕

把弹幕信息存储成excel,也有好多库可以用。比如:

我们就用pandas库把

代码如下(示例):

把用第二步得到的字典创建dataFrame,然后用pandas库的一个api存下就行了

#用字典创建了一个电子表格df = pd.DataFrame(dic)df["contents"].to_excel('htx.xlsx')

4.总代码

import requestsfrom bs4 import BeautifulSoupimport pandas as pd def main():    html = askUrl()    dic =analyse(html)    writeExcel(dic) def askUrl():    #假装自己是浏览器    header ={        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43'    }    #【何同学】我用108天开了个灯......视频的cid:499893135    #弹幕所在地    url = "http://comment.bilibili.com/499893135.xml"    req = requests.get(url = url, headers=header)    html_byte = req.content#字节    html_str = str(html_byte,"utf-8")    return html_str def analyse(html):    soup = BeautifulSoup(html,'html.parser')    results = soup.find_all('d')    #x.text表示要放到contents中的值    contents = [x.text for x in results]    #保存结果    dic ={"contents" : contents}    return dic def writeExcel(dic):    #用字典创建了一个电子表格    df = pd.DataFrame(dic)    df["contents"].to_excel('htx.xlsx') if __name__ == '__main__':    main()

感谢各位的阅读,以上就是“如何使用python爬虫抓取弹幕”的内容了,经过本文的学习后,相信大家对如何使用python爬虫抓取弹幕这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是编程网,小编将为大家推送更多相关知识点的文章,欢迎关注!

--结束END--

本文标题: 如何使用python爬虫抓取弹幕

本文链接: https://lsjlt.com/news/322022.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 如何使用python爬虫抓取弹幕
    这篇文章主要讲解了“如何使用python爬虫抓取弹幕”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何使用python爬虫抓取弹幕”吧!一、爬虫是什么?百度百科这样说:自动获取网页内容的程序...
    99+
    2023-06-29
  • 你会使用python爬虫抓取弹幕吗
    目录前言一、爬虫是什么?二、饲养步骤1.请求弹幕2.解析弹幕3.存储弹幕4.总代码三、总结前言 时隔108天,何同学在B站发布了最新的视频,《【何同学】我用108天开了个灯&hell...
    99+
    2024-04-02
  • 如何用Python爬虫抓取代理IP
    本篇文章为大家展示了如何用Python爬虫抓取代理IP,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。不知道大家在访问网站的时候有没有遇到过这样的状况就是被访问的网站会给出一个提示,提示的显示是“访问...
    99+
    2023-06-02
  • Python爬虫抓取csdn博客
            昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。为了解析抓取的...
    99+
    2023-01-31
    爬虫 博客 Python
  • python爬虫怎么抓取html
    使用 python 爬虫抓取 html 代码的步骤:安装 requests 库;导入 requests 模块;使用 get() 方法获取 html 代码;解析 html 代码;提取所需数...
    99+
    2024-05-22
    python
  • Python爬虫抓取时如何更换ip地址
    这篇文章主要介绍了Python爬虫抓取时如何更换ip地址,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python的五大特点是什么python的五大特点:1.简单易学,开发程...
    99+
    2023-06-15
  • Python制作爬虫抓取美女图
      作为一个新世纪有思想有文化有道德时刻准备着的潘磕星嗄辏谙衷谡庋桓錾缁嶂校奶畚掖舐サ种拼蟀俣鹊那疤嵯拢皇露仙贤涔Y看看斗鱼翻翻美女图片那是必不可少的,可是美图虽多翻页费劲!今天我们就搞个爬虫把美图都给扒下...
    99+
    2022-06-04
    爬虫 美女图 Python
  • Python爬虫抓取技术的门道
    web是一个开放的平台,这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展。然而,正所谓成也萧何败也萧何,开放的特性、搜索引擎以及简单易学的html、css技术使得web成为了互联网领域里最为流行和成熟的信息传播媒介;但如今作为...
    99+
    2023-06-02
  • 怎么用Python爬虫抓取智联招聘
    今天就跟大家聊聊有关怎么用Python爬虫抓取智联招聘,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。对于每个上班族来说,总要经历几次换工作,如何在网上挑到心仪的工作?如何提前为心仪工...
    99+
    2023-06-17
  • 怎么用python爬虫抓取网页文本
    使用Python爬虫抓取网页文本可以使用第三方库requests和beautifulsoup。首先,安装requests和beaut...
    99+
    2023-10-18
    python
  • Python爬虫实现自动化爬取b站实时弹幕的方法
    这篇文章主要介绍了Python爬虫实现自动化爬取b站实时弹幕的方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。Python主要用来做什么Python主要应用于:1、Web开...
    99+
    2023-06-14
  • 如何使用Python爬虫爬取网站图片
    这篇文章主要介绍了如何使用Python爬虫爬取网站图片,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。此次python3主要用requests,解析图片网址主要用beautif...
    99+
    2023-06-22
  • Python爬虫之使用BeautifulSoup和Requests抓取网页数据
    目录一、简介二、网络爬虫的基本概念三、Beautiful Soup 和 Requests 库简介四、选择一个目标网站五、使用 Requests 获取网页内容六、使用 Beautifu...
    99+
    2023-05-14
    Python爬虫 使用BeautifulSoup和Requests Python爬虫抓取网页数据
  • Python爬虫抓取时怎么更换ip
    这篇文章将为大家详细讲解有关Python爬虫抓取时怎么更换ip,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注的是解决问题,...
    99+
    2023-06-15
  • Python 简单爬虫抓取糗事百科
        该爬虫主要实现的功能是抓取糗事百科里面的一些段子。    urllib2可以用urllib2.openurl中设置Request参数,来修改Header头。如果你访问一个网站,想更改User Agent(可以伪装你的浏览器),你就要...
    99+
    2023-01-31
    爬虫 糗事 百科
  • Python如何获取弹幕
    这篇文章主要介绍了Python如何获取弹幕的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python如何获取弹幕文章都会有所收获,下面我们一起来看看吧。环境python 3.8pycharmrequestsre...
    99+
    2023-07-05
  • 如何使用Python爬虫实现抓取电影网站信息并入库
    这篇文章主要介绍如何使用Python爬虫实现抓取电影网站信息并入库,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一.环境搭建1.下载安装包访问 Python官网下载地址:https://www.python.org/...
    99+
    2023-06-29
  • python爬虫如何爬取图片
    这篇文章主要介绍了python爬虫如何爬取图片,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言,内置了许多有效的工具,Pytho...
    99+
    2023-06-14
  • 怎么使用NodeJs爬虫抓取古代典籍
    这篇文章主要讲解了“怎么使用NodeJs爬虫抓取古代典籍”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么使用NodeJs爬虫抓取古代典籍”吧!项目实现方案...
    99+
    2024-04-02
  • Python抓取框架Scrapy爬虫入门:页面提取
    前言 Scrapy是一个非常好的抓取框架,它不仅提供了一些开箱可用的基础组建,还能够根据自己的需求,进行强大的自定义。本文主要给大家介绍了关于Python抓取框架Scrapy之页面提取的相关内容,分享出来供...
    99+
    2022-06-04
    爬虫 框架 入门
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作