返回顶部
首页 > 资讯 > 后端开发 > Python >Python如何实现抖音评论数据抓取
  • 403
分享到

Python如何实现抖音评论数据抓取

2023-06-28 10:06:04 403人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

小编给大家分享一下python如何实现抖音评论数据抓取,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!1. 抓取数据抖音出了 WEB 版,抓取数据方便了很多。抓评论滑到网页评论区,在浏览器网络请求里过滤包含comment的请

小编给大家分享一下python如何实现抖音评论数据抓取,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!

1. 抓取数据

抖音出了 WEB 版,抓取数据方便了很多。

Python如何实现抖音评论数据抓取

抓评论

滑到网页评论区,在浏览器网络请求里过滤包含comment的请求,不断刷新评论就可以看到评论的接口。

有了接口,就可以写 Python 程序模拟请求,获取评论数据。

请求数据要设置一定间隔,避免过大请求,影响别人服务

抓取评论数据有两点需要注意:

  • 有时候接口可能返回空数据,因此需要多试几次,一般过了人工滑动验证后的接口基本可用

  • 不同页面之间的数据可能会重复,所以需要跳页请求

2. EDA

17 号的视频有 12w 条评论,我只抓取了 1w 多条。

Python如何实现抖音评论数据抓取

text列是评论。

先对数据做一些探索性的分析,之前介绍过几个EDA工具,可以自动产出基础的数据统计和图表。

这次我用的是ProfileReport

# edaprofile = ProfileReport(df, title='张同学抖音评论数据', explorative=True)profile

Python如何实现抖音评论数据抓取

评论时间分布

从评论的时间分布来看,由于发布的视频的时间是17号,所有17、18号评论发布量比较多。不过再往后甚至到了 12.9 号,仍然有不少新评论产生,说明视频热度确实很高。

Python如何实现抖音评论数据抓取

评论的长度分布

大多数评论的字数在 20 以内,基本不超过 40 个字,说明都是短文本。

Python如何实现抖音评论数据抓取

评论者身份

参与评论的人里, 99.8% 是没有认证身份的,说明评论用户里基本都是普通用户。

3. LDA

上面的统计数据还是太粗略了。但我们要想知道大家的感兴趣点在哪,又不可能细到把 1.2w 条评论全部看完。

所以需要对这些评论先做一次归类,相当于把数据升维,抽象。因为只有将数据升维,了解每个维度的含义和占比,才能帮助我们从全局角度掌握数据。

这里我用LDA算法对文本聚类,聚合在一起的评论可以看做属于同一个主题。

LDA算法的核心思想有两点:

  • 具有一定相似性的文本会聚合在一起,形成一个主题。每个主题包含生成该主题需要的词,以及这些词的概率分布。以此可以人为推断出主题的类别。

  • 每篇文章会它有在所有主题下的概率分布,以此可以推断出文章属于哪个主题。

比如,经过LDA算法聚类后,某个主题中,战争、军费这类词出现概率很高,那么我们可以将该主题归类为军事。如果有一篇文章属于军事主题的概率很高,我们就可以将该文章分为军事一类。

简单介绍完LDA的理论,下面我们来实战一下。

3.1 分词、去停用词

# 分词emoji = {'可怜', '发呆', '晕', '灵机一动', '击掌', '送心', '泣不成声', '哈欠', '舔屏', '偷笑', '愉快', '再见', '666', '熊吉', '尬笑', '吐舌', '撇嘴', '看', '绿帽子', '捂脸', '呆无辜', '强壮', '震惊', '阴险', '绝', '给力', '打脸', '咖啡', '衰', '一起加油', '酷拽', '流泪', '黑脸', '爱心', '笑哭', '机智', '困', '微笑袋鼠', '强', '闭嘴', '来看我', '色', '憨笑', '不失礼貌的微笑', '红脸', '抠鼻', '调皮', '紫薇别走', '赞', '比心', '悠闲', '玫瑰', '抱拳', '小鼓掌', '握手', '奸笑', '害羞', '快哭了', '嘘', '惊讶', '猪头', '吐', '暗中观察', '不看', '啤酒', '呲牙', '发怒', '绝望的凝视', '大笑', '吐血', '坏笑', '凝视', '可爱', '拥抱', '擦汗', '鼓掌', '胜利', '感谢', '思考', '微笑', '疑问', '我想静静', '灵光一闪', '白眼', '泪奔', '耶'}stopWords = [line.strip() for line in open('stop_words.txt', encoding='UTF-8').readlines()]def fen_ci(x):    res = []    for x in jieba.cut(x):        if x in stopwords or x in emoji or x in ['[', ']']:            continue        res.append(x)    return ' '.join(res)df['text_wd'] = df['text'].apply(fen_ci)

由于评论中有许多 emoji 表情, 我抽取了所以 emoji 表情对应的文本,生成 emoji 数组,用于过滤表情词。

3.2 调用LDA

from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.decomposition import LatentDirichletAllocationimport numpy as npdef run_lda(corpus, k):    cntvec = CountVectorizer(min_df=2, token_pattern='\w+')    cnttf = cntvec.fit_transfORM(corpus)        lda = LatentDirichletAllocation(n_components=k)    docres = lda.fit_transform(cnttf)        return cntvec, cnttf, docres, lda    cntvec, cnttf, docres, lda = run_lda(df['text_wd'].values, 8)

经过多次试验,将数据分成 8 类效果较好。

选取每个主题下出现概率 top20 的词:

Python如何实现抖音评论数据抓取

主题的词分布

从这些词概率分布,归纳各主题的类别,主题0 ~ 主题7分别是:居然看完、知道钥匙在哪、农村生活、喂狗、拍摄手法、还用门?、鸡蛋放盐多、袜子放枕头下。

统计主题占比:

Python如何实现抖音评论数据抓取

主题占比

红色的是主题3(喂狗),占比最大,很多人评论是:以为要做给自己吃,没想到是喂狗的。我看的时候也是这样认为的。

其他各主题占比比较均匀。

经过主题分类后,我们可以发现,张同学不仅仅是农村生活引起了大家的关注,更多的是视频中大量反常态的镜头。

最后,用树状图展示各主题及对应的具体评论。

Python如何实现抖音评论数据抓取

看完了这篇文章,相信你对“Python如何实现抖音评论数据抓取”有了一定的了解,如果想了解更多相关知识,欢迎关注编程网Python频道,感谢各位的阅读!

--结束END--

本文标题: Python如何实现抖音评论数据抓取

本文链接: https://lsjlt.com/news/318700.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python如何实现抖音评论数据抓取
    小编给大家分享一下Python如何实现抖音评论数据抓取,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!1. 抓取数据抖音出了 web 版,抓取数据方便了很多。抓评论滑到网页评论区,在浏览器网络请求里过滤包含comment的请...
    99+
    2023-06-28
  • Python 抖音评论数据抓取分析
    张同学 10.4号开始发视频,视频的点赞量一直很高,11.17 号的视频达到了顶峰,收获 250w 个赞,之后关注量也开启了暴涨。 所以挖掘 11.17 号视频的评论,更有助于我们...
    99+
    2024-04-02
  • 如何通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据
    如何通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。在学习python的时候,...
    99+
    2024-04-02
  • Python项目实战:爬取网易云音乐评论
    前言相信大家都非常喜欢听音乐的吧,每一首歌背后都有一个故事,有爱情,有离别,有仇恨,有不舍等等,听着自己喜欢总会唏嘘,我不仅喜欢听歌,还喜欢看歌曲下面的评论,很多人都阐述了自己对歌曲的看法和理解,除了一些,你懂的..、废话不多说了。上代码吧...
    99+
    2023-06-02
  • Python如何实现抖音热搜定时爬取功能
    这篇“Python如何实现抖音热搜定时爬取功能”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python如何实现抖音热搜定时...
    99+
    2023-06-29
  • 怎样用Python爬取淘宝评论数据
    今天就跟大家聊聊有关怎样用Python爬取淘宝评论数据,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。【项目准备工作】 准备Pycharm,下载安装等,不会安装的,可以回复:pytho...
    99+
    2023-06-01
  • 如何用python抓取B站数据
    目录概述我是对比快速开始1)安装过程2)获取弹幕数据3)绘制词云4)最终效果小结概述 可以获取的数据包括: video-视频模块 user-用户模块 dynamic-动态模块 这次用“Running Man”十周年特...
    99+
    2022-06-02
    python 抓取 python B站
  • Python如何逆向抓取APP数据
    本篇内容介绍了“Python如何逆向抓取APP数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!所需设备和环境:设备:安卓手机抓包:fidd...
    99+
    2023-06-16
  • Python实现抖音热搜定时爬取功能
    目录抖音热搜榜requests爬取selenium爬取数据解析设置定时运行大家好,我是丁小杰。 上次和大家分享了Python定时爬取微博热搜示例介绍,堪称摸鱼神器,一个热榜不够看?今...
    99+
    2024-04-02
  • 如何实现Python抓取数据到可视化全流程的实现
    本篇文章为大家展示了如何实现Python抓取数据到可视化全流程的实现,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。1、爬取目标网站:业绩预告_数据中心_同花顺财经(ps:headers不会设置的可以...
    99+
    2023-06-26
  • 如何实现Vue评论框架
    小编给大家分享一下如何实现Vue评论框架,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!评论表单代码:<!-- 文...
    99+
    2024-04-02
  • AmazeUI如何实现评论列表
    这篇文章主要介绍AmazeUI如何实现评论列表,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!AmazeUI 评论列表的实现示例:<!doctype html><html clas...
    99+
    2023-06-09
  • python如何爬取都挺好影视评论
    本篇文章给大家分享的是有关python如何爬取都挺好影视评论,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。前言最近《都挺好》大火,被誉为“最成功国产家庭伦理剧”,可能大家也有共...
    99+
    2023-06-02
  • 如何用Python网络爬虫抓取百度贴吧评论区图片和视频
    如何用Python网络爬虫抓取百度贴吧评论区图片和视频,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片...
    99+
    2023-06-01
  • php网页评论区如何实现
    要实现PHP网页评论区,可以按照以下步骤进行操作:1. 创建数据库表:首先在数据库中创建一个用于存储评论的表,包括评论ID、评论内容...
    99+
    2023-09-07
    php
  • 如何用vuejs实现评论功能
    这篇文章主要介绍“如何用vuejs实现评论功能”,在日常操作中,相信很多人在如何用vuejs实现评论功能问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何用vuejs实现评论功能”的疑惑有所帮助!接下来,请跟...
    99+
    2023-06-25
  • 使用Python和Scrapy实现抓取网站数据
    目录一、安装Scrapy二、创建一个Scrapy项目三、定义一个Scrapy爬虫四、运行Scrapy爬虫五、保存抓取的数据六、遵守网站的robots.txt七、设置下载延迟八、使用中...
    99+
    2023-05-12
    Python Scrapy抓取网站数据 Python Scrapy抓取数据 Python Scrapy
  • python如何爬取华为应用市场评论
    小编给大家分享一下python如何爬取华为应用市场评论,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!代码分享分别爬取的一些应用信息以及应用的评论信息,数据结构如下...
    99+
    2023-06-15
  • python如何爬取京东指定商品评论
    这篇文章给大家分享的是有关python如何爬取京东指定商品评论的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。爬取京东商城中指定商品下的用户评论,对数据预处理后基于SnowNLP的sentiment模块对文本进行情...
    99+
    2023-06-15
  • Python底层技术揭秘:如何实现数据抓取和存储
    Python底层技术揭秘:如何实现数据抓取和存储,需要具体代码示例随着互联网的普及和数据化进程的加速,数据对于企业与个人来说越来越重要。而Python因其简单易学、功能强大、灵活性高的优势成为了数据处理领域中的主流语言之一。本文将介绍Pyt...
    99+
    2023-11-08
    存储 Python 数据抓取 底层技术
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作