首页 > 资讯 > 后端开发 > Python >Python制作动态词频条形图的过程是怎样的

856

分享到

Python制作动态词频条形图的过程是怎样的

2023-06-25 14:06:16 856人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

这篇文章给大家介绍python制作动态词频条形图的过程是怎样的，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。前言”数据可视化“这个话题，相信大家并不陌生，在一些平台，经常可以看到一些动态条形图的视频，大多都是某国家 G

这篇文章给大家介绍python制作动态词频条形图的过程是怎样的，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。

前言

”数据可视化“这个话题，相信大家并不陌生，在一些平台，经常可以看到一些动态条形图的视频，大多都是某国家 GDP 的变化或者不同国家疫情中感染人数的变化等等。

这篇文章，我们将使用 Python 绘制动态词频条形图，顾名思义，就是以词频作为数量指标的动态条形图。

前期准备

输入以下命令，安装必须的库：

pip install JiashuResearchToolspip install jiebapip install pandaspip install bar_chart_race

数据的选择与获取

我们这次使用的数据是简书文章收益排行榜，日期范围为 2020 年 6 月 20 日至 2021 年 9 月 18 日。

Python制作动态词频条形图的过程是怎样的

从网页中解析数据的过程较为复杂，我们使用简书数据科学库 JianshuResearchTools 完成。

为方便调试，我们使用 Jupyter Notebook 进行交互式开发。

导入 JianshuResearchTools，并为其设置别名：

import JianshuResearchTools as jrt

调用接口，获取 2021 年 9 月 17 日的数据：

jrt.rank.GetArticleFPRankData("20210917")

返回的数据如下：

[{'ranking': 0,  'aslug': 'a03adf9d5dd5',  'title': '幸得君心似我心',  'author_name': '雁阵惊寒',  'author_avatar_url': 'https://upload.jianshu.io/users/upload_avatars/26225608/682b892e-6661-4f98-9aab-20b4038a433b.jpg',  'fp_to_author': 3123.148,  'fp_to_voter': 3123.148,  'total_fp': 6246.297}, {'ranking': 1,  'aslug': '56f7fe236842',  'title': '伤痕',  'author_name': '李文丁',  'author_avatar_url': 'Https://upload.jianshu.io/users/upload_avatars/26726969/058e18c4-908f-4710-8df7-1d34d05d61e3.jpg',  'fp_to_author': 1562.198,  'fp_to_voter': 1562.198,  'total_fp': 3124.397}, （以下省略）

可以看出，返回的数据中包含文章的排名、标题、作者名、作者头像链接和关于简书资产的一些信息。

我们只需要文章的标题进行统计，所以我们将上面获取到的数据赋值给变量 raw_data，然后：

[item["title"] for item in raw_data]

使用列表推导式，我们得到了文章标题组成的列表。

为方便处理，我们将这些数据连接起来，中间用空格分隔：

" ".join([item["title"] for item in raw_data])

但是我们遇到了报错：

TypeError: sequence item 56: expected str instance, NoneType found

从报错信息中可以看出，我们获取到的文章标题列表中有空值，导致字符串的连接失败了。

（空值是因为作者删除了文章）

所以我们还需要加入去除空值的逻辑，代码编程这样：

" ".join(filter(None, [item["title"] for item in raw_data]))

filter 函数在第一个参数为 None 时，默认过滤掉列表中的空值。

现在我们获取到的数据如下：

'幸得君心似我心伤痕短篇|阿生 “我最喜爱的友友”大评选｜理事会 · 中秋嘉年华，等你来！是缘是劫无须问，石火穷年一蝶迷职业日记|从蜜月到陌路：我和美国外教的一点事红楼||浅谈《红楼梦》开篇一顽石城市印象|走笔八卦城花豹与狗的爱情终结在人与动物的战争里（以下省略）

接下来，我们需要获取时间范围内的所有数据。

查询 JRT 的函数文档可知，我们需要一个字符串类型，格式为”YYYYMMDD“的参数表示目标数据的日期。

所以我们需要写一段程序，用于实现这些日期字符串的生成，代码如下：

from datetime import date, timedeltadef DateStrGenerator():    start_date = date(2020, 6, 20)    after = 0    result = None    while result != "20210917":        current_date = start_date + timedelta(days=after)        result = current_date.strftime(r"%Y%m%d")        yield result        after += 1

接下来，我们编写一段代码，实现对这些数据的获取：

result = []for current_date in tqdm(DateStrGenerator(), total=455):    raw_data = jrt.rank.GetArticleFPRankData(current_date)    processed_data = " ".join(filter(None, [item["title"] for item in raw_data]))    result.append({"date": current_date,                    "data": processed_data})

这里使用 tqdm 库显示了一个进度条，非必须。

使用 Pandas 库，将我们采集到的数据转换成 DataFrame：

df = pandas.DataFrame(result)

Python制作动态词频条形图的过程是怎样的

分词

我们使用 jieba 库实现分词，先尝试对第一条数据进行处理：

jieba.lcut(df["data"][0])

使用 Python 标准库 collections 中的 Counter 进行词频统计：

Counter(jieba.lcut(df["data"][0]))

简单画个条形图：

Python制作动态词频条形图的过程是怎样的

可以看到，空格和一些标点符号，包括”的“、”我“之类无意义词汇出现频率很高，我们需要将它们剔除出去。

我们构建一个存放停用词的 txt 文档，之后使用如下代码将其读取，并转换成一个列表：

stopWords_list = [item.replace("\n", "") for item in open("stopwords.txt", "r", encoding="utf-8").readlines()]

接下来，编写一个函数，实现停用词的剔除，为了方便后续的数据处理，我们也一并剔除单字和只出现一次的词语：

def process_words_count(count_dict):    result = {}    for key, value in count_dict.items():        if value < 2:            continue        if len(key) >= 2 and key not in stopwords_list:            result[key] = value    return result

另外，我们使用 jieba 库的 add_word 函数将一些简书中的组织名和专有名词添加到词库中，从而提高分词的准确性，代码如下：

keywords_list = [item.replace("\n", "") for item in open("keywords.txt", "r", encoding="utf-8").readlines()]for item in keywords_list:    jieba.add_word(item)

经过一番处理，现在分词效果有了明显的改善：

Python制作动态词频条形图的过程是怎样的

最后，用这段代码对所有数据进行分词，并将结果保存到另一个 DataFrame 中：

data_list = []date_list = []for _, item in df.iterrows():    date_list.append(datetime(int(item["date"][0:4]), int(item["date"][4:6]), int(item["date"][6:8])))    data_list.append(process_words_count(Counter(jieba.lcut(item["data"]))))processed_df = pandas.DataFrame(data_list, index=date_list)

我最终得到的结果是一个 455 行，2087 列的 DataFrame。

Python制作动态词频条形图的过程是怎样的

筛选与可视化

这样多的数据，其中很大一部分都不能代表整体情况，所以我们需要进行数据筛选。

使用以下代码，统计所有列数值的总和，即每个关键词在全部数据中出现的次数，存储到名为 sum 的行中：

try:    result = []    for i in range(3000):        result.append(processed_df.iloc[:, i].sum())except IndexError:    processed_df.loc["sum"] = result

Python制作动态词频条形图的过程是怎样的

运行以下代码，只保留在数据集中出现 300 次以上的关键词：

maller_df = processed_df.T[processed_df.T["sum"] >= 300].Tsmaller_df = smaller_df.drop(labels="sum")smaller_df.columns

现在，数据集中的列数减少到了 24 个，可以进行可视化了。

不要忘记先导入模块：

import bar_chart_race as bcr

使用此模块需要先安装 FFmpeg，这方面教程可以自行查找。

另外，为了支持中文显示，我们需要打开这个模块下的 _make_chart.py 文件，在 import 之后增加以下两行代码：

plt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False

这两行代码将会把 matplotlib 的默认字体替换成支持中文显示的字体。

最后，使用一行代码完成可视化：

bcr.bar_chart_race(smaller_df, steps_per_period=30, period_length=1500, title="简书文章收益排行榜可视化", bar_size=0.8, fixed_max=10, n_bars=10)

在这行代码中，我们使用 smaller_df 作为数据集，输出文件为 output.mp4，帧率设置为 30，每行数据显示 2 秒。

由于数据较多，这一步时间较长，而且会占用较多内存。运行结束后，即可在目录中找到输出的文件。

Python制作动态词频条形图的过程是怎样的

关于Python制作动态词频条形图的过程是怎样的就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

您可能感兴趣的文档:

--结束END--

本文标题: Python制作动态词频条形图的过程是怎样的

本文链接: https://lsjlt.com/news/305410.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python分析数据的方法是什么

2024-03-01

如何使用Python实现抽奖小程序

2024-03-01

python copy函数的作用是什么

2024-03-01

python ffmpeg模块怎么安装和使用

2024-02-29

python进程池创建队列的方法是什么

2024-02-29

python无法运行文件的原因有哪些

2024-02-29

python can't open file报错怎么解决

2024-02-29

python keyerror错误怎么解决

2024-02-29

python字符串处理与应用的方法有哪些

2024-02-29

python全局变量如何定义

2024-02-29

热门问答

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python制作动态词频条形图的过程是怎样的

前言

前期准备

数据的选择与获取

分词

筛选与可视化

Python制作动态词频条形图的过程是怎样的

Python制作动态词频条形图的全过程

Python利用matplotlib实现制作动态条形图

Python Matplotlib绘制条形图的全过程

一款Python工具制作的动态条形图(强烈推荐!)

Python实现动态条形图绘制的示例代码

ppt动画制作过程是怎么样的

Python实现动态条形图的示例详解

photoshop雪景制作过程是怎样的

Android下录制App操作生成Gif动态图的全过程

python学习之10行代码制作炫酷的词云图（匹配指定图形形状）

python怎么通过Matplotlib绘制常见的图形

Netty NioEventLoop启动过程是怎样的

Python爬虫过程是怎样的

Linux内核驱动fsync机制实现过程是怎样的

剖析Python源代码编制过程是怎么样的

php实现ffmpeg处理视频的过程是怎样的

Python数据可视化中的环形图是怎样的

R语言怎么利用barplot()制作条形图的各种实例

HTML5 SVG中的图形绘制介绍及使用是怎样的

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义