首页 > 资讯 > 精选 >Spark MLlib的API CountVectorizer怎么用

588

分享到

Spark MLlib的API CountVectorizer怎么用

2023-06-19 10:06:13 588人浏览安东尼

摘要

这篇文章主要介绍“spark MLlib的api CountVectorizer怎么用”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“Spark MLlib的API CountVectorizer怎么

这篇文章主要介绍“spark MLlib的api CountVectorizer怎么用”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“Spark MLlib的API CountVectorizer怎么用”文章能帮助大家解决问题。

CountVectorizer

CountVectorizer 和 CountVectorizerModel 旨在帮助将文本文档集合转化为频数向量。当先验词典不可用时，CountVectorizer可以用作Estimator提取词汇表，并生成一个CountVectorizerModel。该模型会基于该字典为文档生成稀疏矩阵，该稀疏矩阵可以传给其它算法，比如LDA，去做一些处理。

在拟合过程中，CountVectorizer会从整个文档集合中进行词频统计并排序后的前vocabSize个单词。

一个可选参数minDF也会影响拟合过程，方法是指定词汇必须出现的文档的最小数量（或小于1.0）。另一个可选的二进制切换参数控制输出向量。如果设置为true，则所有非零计数都设置为1.这对于模拟二进制计数而不是整数计数的离散概率模型特别有用。

举例说明该算法

假如我们有个DataFrame有两列：id和texts。

id	texts
0	Array("a", "b", "c")
1	Array("a", "b", "b", "c", "a")

每一行texts都是一个Array [String]类型的文档。使用字典（A，B，C）调用CountVectorizer产生CountVectorizerModel。然后转换后的输出列“向量”包含

vector列：

id	texts	vector
0	Array("a", "b", "c")	(3,[0,1,2],[1.0,1.0,1.0])
1	Array("a", "b", "b", "c", "a")	(3,[0,1,2],[2.0,2.0,1.0])

将两篇文档中的词去重后就组成了一个字典，这个字典中有3个词：a,b,c,分别建立索引为0,1,2.
在第三列的文档向量，是由基于字典的索引向量，与对应对索引的词频向量所组成的。
文档向量是稀疏的表征，例子中只有3个词可能感觉不出，在实际业务中，字典的长度是上万，而文章中出现的词可能是几百或几千，故很多索引对应的位置词频都是0.

spark中的源码

导包

import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}

准备数据

val df = spark.createDataFrame(Seq(
  (0, Array("a", "b", "c")),
  (2, Array("a", "b", "c", "c", "a"))
)).toDF("id", "Words")

从全文集中拟合CountVectorizerModel（自动计算字典）

val cvModel: CountVectorizerModel = new CountVectorizer()
  .setInputCol("words")
  .setOutputCol("features")
  .setVocabSize(3)
  .setMinDF(2).fit(df)

查看结果

cvModel.transfORM(df).show(false)

Spark MLlib的API CountVectorizer怎么用

指定预先字典

val cvm = new CountVectorizerModel(Array("a", "b", "c"))
.setInputCol("words").setOutputCol("features")

为了避免重复，重新造一组数据

val df = spark.createDataFrame(Seq(
  (0, Array("a", "b", "c")),
  (2, Array("a", "b", "c", "c", "a"))
)).toDF("id", "words")

查看结果

cvm.transform(df).show(false)

Spark MLlib的API CountVectorizer怎么用

关于“Spark MLlib的API CountVectorizer怎么用”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识，可以关注编程网精选频道，小编每天都会为大家更新不同的知识点。

--结束END--

本文标题: Spark MLlib的API CountVectorizer怎么用

本文链接: https://lsjlt.com/news/295600.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Spark MLlib的API CountVectorizer怎么用

Spark MLlib的API CountVectorizer怎么用

Spark中MLlib的应用场景有哪些

Spark中MLlib和ML库的区别是什么

Spark SQL怎么用

spark与hbase怎么用

Spark Stream怎么使用

怎么用Spark读取HBASE数据

spark中的transform有什么用

HTML5的FileWriter API怎么用

HTML5的Canvas API怎么用

Vue3中的API怎么用

怎么进行Spark in action on Kubernetes - Spark Operator的原理解析

怎么进行Spark NLP使用入门

Spark Sql中FROM_UNIXTIME和UNIX_TIMESTAMP怎么使用

怎么用Docker-Compose搭建Spark集群

怎么使用Go语言实现Spark

hive使用spark引擎怎么配置

spark中submit的作用是什么

spark中submit的用法是什么

spark中mappartitions的作用是什么

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南