返回顶部
首页 > 资讯 > 后端开发 > 其他教程 >C#中使用jieba.NET、WordCloudSharp制作词云图的步骤
  • 832
分享到

C#中使用jieba.NET、WordCloudSharp制作词云图的步骤

2024-04-02 19:04:59 832人浏览 安东尼
摘要

词云简介 “词云”由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于2006年最先使用,是通过形成“关键词云层”或“关键词渲染”,对文本中出现频率较高的

词云简介

“词云”由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于2006年最先使用,是通过形成“关键词云层”或“关键词渲染”,对文本中出现频率较高的“关键词”的视觉上的突出。
网上大部分文章介绍的是使用python的jieba、Wordcloud的库生成词云图,本文则介绍在C#中如何使用jieba.net、WordCloudSharp库生成词云图,后者是前者的.NET实现。

准备工作

创建一个C#的控制台项目,通过NuGet添加引用对jieba.NET、WordCloudSharp的引用,使用方法可以参考以下链接:

  • jieba.NET:https://GitHub.com/anderscui/jieba.NET
  • WordCloudSharp:Https://github.com/AmmRage/WordCloudSharp

安装之后,在packages\jieba.NET目录下找到Resources目录,将整个Resources目录拷贝到程序集所在目录,这里面是jieba.NET运行所需的词典及其它数据文件。

基本算法

算法主要步骤如下:

  • 提取关键词:基于TF-IDF算法、TextRank算法提取文本的关键词,按权重大小选取部分关键词。
  • 统计关键词词频:先将文本分词,统计每个词的词频,再筛选出关键词的词频。
  • 生成词云图:根据关键词及其词频信息在蒙版图片的基础上生成词图。

注:本文采用TF-IDF算法提取关键词,蒙版图目前只支持黑白图片。

TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

算法实现

使用JiebaNet.Analyser.TfidfExtractor.ExtractTagsWithWeight(string text, int count = 20, IEnumerable allowPos = null)从指定文本中抽取关键词的同时得到其权重,代码如下:


/// <summary>
/// 从指定文本中抽取关键词的同时得到其权重
/// </summary>
/// <param name="text"></param>
/// <returns></returns>
static WordWeightPair[] ExtractTagsWithWeight(string text)
{
    var extractor = new TfidfExtractor();
    var wordWeight = extractor.ExtractTagsWithWeight(text, 50);
    StringBuilder sbr = new StringBuilder();
    sbr.Append("词语");
    sbr.Append(",");
    sbr.Append("权重");
    sbr.AppendLine(",");
    foreach (var item in wordWeight)
    {
        sbr.Append(item.Word);
        sbr.Append(",");
        sbr.Append(item.Weight);
        sbr.AppendLine(",");
    }
    string filename = "关键词权重统计.csv";
    File.WriteAllText(filename, sbr.ToString(), Encoding.UTF8);
    Console.WriteLine("关键词提取完成:" + filename);
    return wordWeight.ToArray();
}

使用JiebaNet.Segmenter.Common下的Counter类统计词频,其实现来自Python标准库的Counter类(具体接口和实现细节略有不同),代码如下:


/// <summary>
/// 分词并统计词频:默认为精确模式,同时也使用HMM模型
/// </summary>
/// <param name="text"></param>
/// <param name="wordWeightAry"></param>
/// <returns></returns>
static KeyValuePair<string, int>[] Counter(string text, WordWeightPair[] wordWeightAry)
{
    var segmenter = new JiebaSegmenter();
    var segments = segmenter.Cut(text);
    var freqs = new Counter<string>(segments);
    KeyValuePair<string, int>[] countAry = new KeyValuePair<string, int>[wordWeightAry.Length];
    for (int i = 0; i < wordWeightAry.Length; i++)
    {
        string key = wordWeightAry[i].Word;
        countAry[i] = new KeyValuePair<string, int>(key, freqs[key]);
    }
    StringBuilder sbr = new StringBuilder();
    sbr.Append("词语");
    sbr.Append(",");
    sbr.Append("词频");
    sbr.AppendLine(",");
    foreach (var pair in countAry)
    {
        sbr.Append(pair.Key);
        sbr.Append(",");
        sbr.Append(pair.Value);
        sbr.AppendLine(",");
    }
    string filename = "词频统计结果.csv";
    File.WriteAllText(filename, sbr.ToString(), Encoding.UTF8);
    Console.WriteLine("词频统计完成:" + filename);
    return countAry;
}

使用WordCloudSharp生成词云图,蒙版图必须使用黑白图片,记得手动引用System.Drawing,代码如下:


/// <summary>
/// 创建词云图
/// </summary>
/// <param name="countAry"></param>
static void CreateWordCloud(KeyValuePair<string, int>[] countAry)
{            
    string markPath = "mask.jpg";
    string resultPath = "result.jpg";
    Console.WriteLine("开始生成图片,读取蒙版:" + markPath);
    Image mask = Image.FromFile(markPath);
    //使用蒙版图片
    var wordCloud = new WordCloud(mask.Width, mask.Height, mask: mask, allowVerical: true, fontname: "YouYuan");
    //不使用蒙版图片
    //var wordCloud = new WordCloud(1000, 1000,false, null,-1,1,null, false);
    var result = wordCloud.Draw(countAry.Select(it => it.Key).ToList(), countAry.Select(it => it.Value).ToList());
    result.Save(resultPath);
    Console.WriteLine("图片生成完成,保存图片:" + resultPath);
}

运行测试

以本文为分析文本生成词云图,代码如下:


static void Main(string[] args)
{
    string text = File.ReadAllText("待处理数据.txt");
    var wordWeight = ExtractTagsWithWeight(text);
    var wordFreqs = Counter(text, wordWeight);
    CreateWordCloud(wordFreqs);
    Console.Read();
}

蒙版图如下:

词云图如下(使用蒙版):

词云图如下(不使用蒙版):

在得到关键词的词频信息后,通过在线工具网站生成词云图片会更加方便一点,如词云文字、图悦等。

参考资料

jieba.NET是jieba中文分词的.NET版本(C#实现)

TF-IDF算法和TextRank算法的分析比较

Python生成词云图

到此这篇关于C#中使用jieba.NET、WordCloudSharp制作词云图的文章就介绍到这了,更多相关C#制作词云图内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: C#中使用jieba.NET、WordCloudSharp制作词云图的步骤

本文链接: https://lsjlt.com/news/131061.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • C#中使用jieba.NET、WordCloudSharp制作词云图的步骤
    词云简介 “词云”由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于2006年最先使用,是通过形成“关键词云层”或“关键词渲染”,对文本中出现频率较高的...
    99+
    2024-04-02
  • Python中怎么使用pyecharts绘制词云图
    这篇文章主要讲解了“Python中怎么使用pyecharts绘制词云图”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python中怎么使用pyecharts绘制词云图”吧!词云图什么是词云图...
    99+
    2023-07-02
  • python3使用diagrams绘制架构图的步骤
    目录技术背景diagrams的安装基础逻辑关系图组件簇的定义总结概要技术背景 对于一个架构师或者任何一个软件工程师而言,绘制架构图都是一个比较值得学习的技能。这就像我们学习的时候整...
    99+
    2024-04-02
  • 在PyCharm中使用FMEObjects的操作步骤
    目录在PyCharm中使用FMEObjects操作步骤:使用PyCharm在PyCharm中使用FMEObjects 安装和配置下载并安装PyCharm社区版 Python FMEO...
    99+
    2024-04-02
  • 使用ECharts和Python接口绘制漏斗图的步骤
    使用ECharts和Python接口绘制漏斗图的步骤漏斗图是一种用来显示多个阶段性数据的可视化图表,它通常用来表示一个过程中各个阶段的转化率或者数量比例。在使用ECharts和Python接口绘制漏斗图前,需要先安装相应的库和插件,然后按照...
    99+
    2023-12-17
    Python echarts 漏斗图
  • 使用ECharts和Python接口绘制玫瑰图的步骤
    使用ECharts和Python接口绘制玫瑰图的步骤,需要具体代码示例玫瑰图是一种直观展示数据分布的图表类型,在数据可视化中有着广泛的应用。本文将介绍如何使用ECharts和Python接口绘制玫瑰图,并给出相应的代码示例。步骤一:安装和导...
    99+
    2023-12-18
    echarts Python接口 玫瑰图绘制
  • 使用ECharts和Python接口绘制折线图的步骤
    使用ECharts和Python接口绘制折线图的步骤,需要具体代码示例折线图是一种常用的数据可视化形式,能够清晰地显示数据的趋势和变化。在Python中,结合ECharts库可以快速、灵活地绘制折线图。本文将介绍使用ECharts和Pyth...
    99+
    2023-12-18
    Python 绘制 echarts
  • C++中的opeartor new和placement new使用步骤
    目录new做了哪些:opeartor new重载测试placement newPlacement new使用步骤总结:参考文章:new做了哪些: 在c++中,对new的调用时,new...
    99+
    2022-11-13
    C++ opeartor new C++ placement new
  • vue3项目中使用three.js的操作步骤
    目录前言一、three.js是什么?二、vue3中下载与安装three.js三、操作步骤1.创建场景2.创建物体3.添加光源4.添加相机5.开始渲染四、myThree.vue源代码五...
    99+
    2023-01-15
    vue3 three.js vue使用three.js
  • vue中使用词云图的实现方法
    这篇文章将为大家详细讲解有关vue中使用词云图的实现方法,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。在vue中, 查找到有两种方法来实现词云图, 分别是echarts 和 highchar...
    99+
    2023-06-29
  • vue中使用词云图的实现示例
    在vue中, 查找到有两种方法来实现词云图, 分别是echarts 和 highcharts Echarts: 注意,wordcloud对应的echarts版本有要求:echarts...
    99+
    2024-04-02
  • C#中怎么使用ChartControl控件制作曲线图
    要使用ChartControl控件制作曲线图,需要进行以下步骤:1. 首先,添加一个ChartControl控件到窗体或用户控件中。...
    99+
    2023-10-18
    C#
  • 如何使用CSS制作旋转动画的实现步骤
    如何使用CSS制作旋转动画的实现步骤在现代网页设计中,动画效果是非常重要和受欢迎的一个元素。其中,旋转动画可以给网页注入活力和吸引力。本文将介绍如何使用CSS制作旋转动画的具体步骤,并提供一些代码示例。步骤一:创建HTML结构首先,在HTM...
    99+
    2023-10-26
    CSS 制作 旋转动画
  • 如何使用CSS制作滚动加载的图片展示效果的实现步骤
    随着网页技术的发展,滚动加载已成为一种常见的图片展示方式。通过使用CSS,我们可以实现一个具有滚动加载功能的图片展示效果,让网页在用户滚动的同时自动加载新的图片,提升用户体验。下面将介绍一种实现滚动加载图片展示效果的具体步骤,并提供相应的代...
    99+
    2023-10-21
    图片展示 CSS 滚动加载
  • 使用C语言操作树莓派GPIO的详细步骤
    第一步安装GPIO库。 cd /tmp wget https://project-downloads.drogon.net/wiringpi-latest.deb sudo dp...
    99+
    2024-04-02
  • 如何使用CSS制作旋转进度条的实现步骤
    CSS是一种用于设计和布局网页的样式表语言,它提供了丰富的属性和功能。其中之一是可以使用CSS制作旋转进度条。这个特效可以用于展示页面加载或任务进度等情况。以下是具体的实现步骤和代码示例:第一步:HTML结构首先,我们需要在HTML中创建一...
    99+
    2023-10-21
    CSS 制作 旋转进度条
  • 如何使用CSS制作跑马灯效果的实现步骤
    跑马灯效果是一种常见的前端特效,在网页中显示连续滚动的文字或图片,给页面增添了一些动感和活力。本文将介绍如何使用CSS来实现跑马灯效果的具体步骤,并提供相应的代码示例供参考。步骤一:创建HTML结构首先,我们需要在HTML中创建用来实现跑马...
    99+
    2023-10-21
    CSS 实现步骤 跑马灯效果
  • 如何使用CSS制作手风琴效果的实现步骤
    手风琴效果是一个常见的网页展示效果,通过收缩和展开不同内容块,使网页更加美观和交互性。在本文中,我们将介绍如何使用CSS制作手风琴效果,并提供具体的代码示例。实现手风琴效果的基本原理是使用CSS的过渡(transition)和动画(anim...
    99+
    2023-10-21
    CSS 手风琴效果 实现步骤
  • 如何使用CSS制作倒计时效果的实现步骤
    如何使用CSS制作倒计时效果的实现步骤倒计时效果是网页开发中常见的一个功能,可以为用户呈现倒计时的动态效果,给人以紧迫感和期待感。本文将介绍如何使用CSS来实现倒计时效果,并给出详细的实现步骤和代码示例。实现步骤如下:步骤一:HTML结构搭...
    99+
    2023-10-26
    CSS 制作 倒计时
  • 图片优化在SEO中的作用和步骤是什么
    图片优化在SEO中的作用包括三个方面:一、提高网站加载速度;二、增强用户体验;三、提升搜索引擎排名。例如,通过压缩图片和添加ALT标签,可以使图片加载更快,提高用户体验,并有助于搜索引擎更好地理解图片内容。图片优化的步骤包括选择合适格式、压...
    99+
    2023-10-29
    步骤 作用 图片
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作