返回顶部
首页 > 资讯 > 后端开发 > Python >Python如何实现爬取某站视频弹幕并绘制词云图
  • 848
分享到

Python如何实现爬取某站视频弹幕并绘制词云图

2023-06-22 02:06:58 848人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要为大家展示了“python如何实现爬取某站视频弹幕并绘制词云图”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Python如何实现爬取某站视频弹幕并绘制词云图”这篇文章吧。前言[课 题

这篇文章主要为大家展示了“python如何实现爬取某站视频弹幕并绘制词云图”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Python如何实现爬取某站视频弹幕并绘制词云图”这篇文章吧。

前言

[课 题]:

Python爬取某站视频弹幕或者腾讯视频弹幕,绘制词云图

[知识点]:

爬虫基本流程

正则

requests >>> pip install requests

jieba >>> pip install jieba

imageio >>> pip install imageio

Wordcloud  >>> pip install wordcloud

[开发环境]:

Python 3.8

PyCharm

win + R 输入cmd 输入安装命令 pip install 模块名 如果出现爆红 可能是因为 网络连接超时 切换国内镜像源

相对应的安装包/安装教程/激活码/使用教程/学习资料/工具插件 可以找我

爬取弹幕

爬虫基本思路流程

一. 数据来源分析

确定我们想要数据是什么?

爬取某站弹幕数据 保存文本txt

通过开发者工具进行抓包分析...

通过 接口可以直接找到视频的弹幕数据地址

二. 爬虫代码实现步骤

发送请求,  对于(评论看) 发送请求

需要注意点:

  • - 请求方式确定

  • - 请求头参数

获取数据, 获取服务器返回的数据

解析数据, 提取我们想要数据内容, 弹幕数据

保存数据, 把获取下来的数据内容保存txt文本

模拟浏览器对于服务器发送请求

导入模块

import requests  # 数据请求模块 第三方模块 pip install requestsimport re  # 正则表达式模块 内置模块 不需要安装

代码

# # 1. 发送请求# url = '(评论看)'# # headers 请求头 作用把Python代码进行伪装, 模拟成浏览器去发送请求# # user-agent 浏览器基本身份标识# # headers 请求头 字典数据类型# headers = {#     'user-agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/96.0.4664.93 Safari/537.36'# }# # 通过requests模块里面get请求方法, 对于url地址发送请求, 并且携带上headers请求头, 最后用response变量去接收返回数据# response = requests.get(url=url, headers=headers)# response.encoding = response.apparent_encoding# # <Response [200]> response对象 200状态码 表示请求成功# # 如果你想要获取 网页源代码一样的数据内容的话, 是获取响应体的文本数据# # 如果服务器返回的数据, 不是完整JSON数据 字典数据 直接获取response.json()就会报错# # 2. 获取数据 response.text 返回数据 html字符串数据# # print(response.text)# # 3. 解析数据, 解析方式  re[可以直接对于字符串数据进行提取] CSS xpath [主要根据标签属性/节点提取数据]# # () 精确匹配 表示想要的数据 泛匹配 .*? 正则表达式元字符 可以匹配任意字符(除了换行符\n以外)# data_list = re.findall('<d p=".*?">(.*?)</d>', response.text)# for index in data_list:#     # mode 保存方式 encoding 编码#     # pprint.pprint() 格式化输入 json字典数据#     with open('弹幕.txt', mode='a', encoding='utf-8') as f:#         f.write(index)#         f.write('\n')#         print(index)
url = 'https://mapi.vip.com/vips-mobile/rest/shopping/pc/search/product/rank?callback=getMerchandiseIds&app_name=shop_pc&app_version=4.0&warehouse=VIP_NH&fdc_area_id=104104101&client=pc&mobile_platfORM=1&province_id=104104&api_key=70f71280d5d547b2a7bb370a529aeea1&user_id=&mars_cid=1634797375792_17a23bdc351b36f2915c2f7ec16dc88e&wap_consumer=a&standby_id=nature&keyword=%E5%8F%A3%E7%BA%A2&lv3CatIds=&lv2CatIds=&lv1CatIds=&brandStoreSns=&props=&priceMin=&priceMax=&vipService=&sort=0&pageOffset=0&channelId=1&gPlatform=PC&batchSize=120&_=1639640088314'headers = {    'referer': 'Https://cateGory.vip.com/',    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'}response = requests.get(url=url, headers=headers)print(response.text)

Python如何实现爬取某站视频弹幕并绘制词云图

制作词云图

[知识点]:

爬虫基本流程

正则

requests >>> pip install requests

jieba >>> pip install jieba

imageio >>> pip install imageio

wordcloud  >>> pip install wordcloud

[开发环境]:

Python 3.8

Pycharm

导入模块

import jieba  # 结巴分词 pip install jiebaimport wordcloud  # 词云图 pip install wordcloudimport imageio  # 读取本地图片 修改词云图形img = imageio.imread('苹果.png')

读取弹幕数据

f = open('弹幕.txt', encoding='utf-8')text = f.read()# print(text)

分词, 把一句话 分割成很多词汇

text_list = jieba.lcut(text)print(text_list)# 列表转成字符串text_str = ' '.join(text_list)print(text_str)

词云图配置

wc = wordcloud.WordCloud(    width=500,  # 宽度    height=500,  # 高度    background_color='white', # 背景颜色    mask=img,    stopwords={'每', '一个', '了', '的', '梦想', '助力'},    font_path='msyh.ttc'  # 字体文件)wc.generate(text_str)wc.to_file('词云1.png')

Python如何实现爬取某站视频弹幕并绘制词云图Python如何实现爬取某站视频弹幕并绘制词云图

以上是“Python如何实现爬取某站视频弹幕并绘制词云图”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网Python频道!

--结束END--

本文标题: Python如何实现爬取某站视频弹幕并绘制词云图

本文链接: https://lsjlt.com/news/302121.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python实现爬取某站视频弹幕并绘制词云图
    目录前言爬取弹幕爬虫基本思路流程导入模块代码制作词云图导入模块读取弹幕数据前言 [课 题]: Python爬取某站视频弹幕或者腾讯视频弹幕,绘制词云图 [知识点]: 1. 爬虫基本流...
    99+
    2024-04-02
  • Python如何实现爬取某站视频弹幕并绘制词云图
    这篇文章主要为大家展示了“Python如何实现爬取某站视频弹幕并绘制词云图”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Python如何实现爬取某站视频弹幕并绘制词云图”这篇文章吧。前言[课 题...
    99+
    2023-06-22
  • Python爬取英雄联盟MSI直播间弹幕并生成词云图
    目录一、环境准备二、数据准备三、代码如下四、词云图效果展示一、环境准备 安装相关第三方库 pip install jieba pip install wordcloud 二、数据准备...
    99+
    2024-04-02
  • Python实现提取图片中颜色并绘制成可视化图表
    目录导入模块并加载图片提取颜色并整合成表格绘制图表实战环节今天小编来为大家分享一个有趣的可视化技巧,如何从图片中提取颜色然后绘制成可视化图表,如下图所示 在示例照片当中有着各种各样...
    99+
    2024-04-02
  • 如何实现python爬虫爬取视频时实现实时进度条显示
    目录一、全部代码展示二、解释1.with closingwith用法(实现上下文管理)closing用法(完美解决上述问题)2.文件流stream3.response.headers...
    99+
    2024-04-02
  • Python如何实现合并多张图片成视频
    本篇内容介绍了“Python如何实现合并多张图片成视频”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!合并多张图片到视频的方法说明除了使用 O...
    99+
    2023-07-05
  • 利用python对b站某GPT-4解说视频的近万条弹幕进行爬取、数据挖掘、数据分析、弹幕数量预测及情绪分类
             目录 一、利用Python爬取弹幕  二、利用几行代码直接生成词云 三、将弹幕属性和内容放入mysql当中  四、分析弹幕在视频各节点的数量 1、分析视频各个片段出现的弹幕数量 2、分析视频各大章节出现的弹幕数量 3.分析...
    99+
    2023-09-10
    人工智能 python 数据挖掘 数据分析 mysql
  • 基于Python如何实现合并多张图片转成mp4视频
    这篇文章主要介绍“基于Python如何实现合并多张图片转成mp4视频”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“基于Python如何实现合并多张图片转成mp4视频”文章能帮助大家解决问题。一、需要...
    99+
    2023-07-06
  • Python如何通过Scrapy框架实现爬取CSDN全站热榜标题热词
    小编给大家分享一下Python如何通过Scrapy框架实现爬取CSDN全站热榜标题热词,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!环境部署scrapy安装pip install scrapy ...
    99+
    2023-06-25
  • Python中如何爬取京东商品数据并实现数据可视化
    这篇文章将为大家详细讲解有关Python中如何爬取京东商品数据并实现数据可视化,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。一、开发工具Python版本:3.6.4相关模块:DecryptLogin模块;...
    99+
    2023-06-15
  • 如何使用Python爬虫实现抓取电影网站信息并入库
    这篇文章主要介绍如何使用Python爬虫实现抓取电影网站信息并入库,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一.环境搭建1.下载安装包访问 Python官网下载地址:https://www.python.org/...
    99+
    2023-06-29
  • Python如何实现批量读取HDF多波段栅格数据并绘制像元直方图
    本篇内容介绍了“Python如何实现批量读取HDF多波段栅格数据并绘制像元直方图”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!首先将本文所需...
    99+
    2023-07-05
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作