首页 > 资讯 > 后端开发 > Python >Python中怎么利用DBSCAN实现一个密度聚类算法

429

分享到

Python中怎么利用DBSCAN实现一个密度聚类算法

2023-06-16 09:06:08 429人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

python中怎么利用DBSCAN实现一个密度聚类算法，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。基于密度这点有什么好处呢?我们知道kmeans聚类算法只能处理球形的簇，也就

python中怎么利用DBSCAN实现一个密度聚类算法，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

基于密度这点有什么好处呢?

我们知道kmeans聚类算法只能处理球形的簇，也就是一个聚成实心的团(这是因为算法本身计算平均距离的局限)。但往往现实中还会有各种形状，比如下面两张图，环形和不规则形，这个时候，那些传统的聚类算法显然就悲剧了。

于是就思考，样本密度大的成一类呗，这就是DBSCAN聚类算法。

三、参数选择

上面提到了红色圆圈滚啊滚的过程，这个过程就包括了DBSCAN算法的两个参数，这两个参数比较难指定，公认的指定方法简单说一下：

半径：半径是最难指定的，大了，圈住的就多了，簇的个数就少了;反之，簇的个数就多了，这对我们最后的结果是有影响的。我们这个时候K距离可以帮助我们来设定半径r，也就是要找到突变点，比如：以上虽然是一个可取的方式，但是有时候比较麻烦，大部分还是都试一试进行观察，用k距离需要做大量实验来观察，很难一次性把这些值都选准。

MinPts:这个参数就是圈住的点的个数，也相当于是一个密度，一般这个值都是偏小一些，然后进行多次尝试

四、DBSCAN算法迭代可视化展示

国外有一个特别有意思的网站，它可以把我们DBSCAN的迭代过程动态图画出来。

网址：naftaliharris[1]

设置好参数，点击Go! 就开始聚类了!

五、常用评估方法：轮廓系数

这里提一下聚类算法中最常用的评估方法——轮廓系数(Silhouette Coefficient)：

计算样本i到同簇其它样本到平均距离ai，ai越小，说明样本i越应该被聚类到该簇(将ai称为样本i到簇内不相似度);

计算样本i到其它某簇Cj的所有样本的平均距离bij，称为样本i与簇Cj的不相似度。定义为样本i的簇间不相似度：bi=min(bi1,bi2,...,bik2);

说明：

si接近1，则说明样本i聚类合理;
si接近-1，则说明样本i更应该分类到另外的簇;
若si近似为0，则说明样本i在两个簇的边界上;

六、用Python实现DBSCAN聚类算法

导入数据：

import pandas as pd from sklearn.datasets import load_iris # 导入数据,sklearn自带鸢尾花数据集 iris = load_iris().data print(iris)

输出：

使用DBSCAN算法：

from sklearn.cluster import DBSCAN  iris_db = DBSCAN(eps=0.6,min_samples=4).fit_predict(iris) # 设置半径为0.6，最小样本量为2，建模 db = DBSCAN(eps=10, min_samples=2).fit(iris)   # 统计每一类的数量 counts = pd.value_counts(iris_db,sort=True) print(counts)

可视化：

import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = [u'Microsoft YaHei']  fig,ax = plt.subplots(1,2,figsize=(12,12))  # 画聚类后的结果 ax1 = ax[0] ax1.scatter(x=iris[:,0],y=iris[:,1],s=250,c=iris_db) ax1.set_title('DBSCAN聚类结果',fontsize=20)  # 画真实数据结果 ax2 = ax[1] ax2.scatter(x=iris[:,0],y=iris[:,1],s=250,c=load_iris().target) ax2.set_title('真实分类',fontsize=20) plt.show()

我们可以从上面这个图里观察聚类效果的好坏，但是当数据量很大，或者指标很多的时候，观察起来就会非常麻烦。

这时候可以使用轮廓系数来判定结果好坏，聚类结果的轮廓系数，定义为S，是该聚类是否合理、有效的度量。

聚类结果的轮廓系数的取值在[-1,1]之间，值越大，说明同类样本相距越近，不同样本相距越远，则聚类效果越好。

轮廓系数以及其他的评价函数都定义在sklearn.metrics模块中，在sklearn中函数silhouette_score()计算所有点的平均轮廓系数。

from sklearn import metrics   # 就是下面这个函数可以计算轮廓系数（sklearn真是一个强大的包） score = metrics.silhouette_score(iris,iris_db)  score

结果： 0.364

看完上述内容，你们掌握Python中怎么利用DBSCAN实现一个密度聚类算法的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注编程网Python频道，感谢各位的阅读！

您可能感兴趣的文档:

--结束END--

本文标题: Python中怎么利用DBSCAN实现一个密度聚类算法

本文链接: https://lsjlt.com/news/283112.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python中怎么利用DBSCAN实现一个密度聚类算法

Python中怎么利用DBSCAN实现一个密度聚类算法

Python实现DBSCAN聚类算法并样例测试

【机器学习】DBSCAN聚类算法（含Python实现）

Python 中怎么实现一个k-means 均值聚类算法

怎么在python中实现dbscan算法

利用Python如何实现K-means聚类算法

如何利用python的KMeans和PCA包实现聚类算法

密度峰值聚类算法DPC(Density Peak Clustering)理论基础与python实现

Python中怎么实现一个感知器分类算法

python中实现k-means聚类算法详解

10个Python实现的最频繁使用的聚类算法

怎么利用java实现一个二分法算法

利用python实现聚类分析K-means算法的详细过程

怎么在Java中利用TreeMap实现一个排序算法

Python中怎么正确实现一个算法

C#中怎么利用类实现一个接口

python利用K-Means算法实现对数据的聚类案例详解

K-means聚类算法介绍与利用python实现的代码示例

使用Python在实现一个梯度下降算法

JavaScript中怎么实现一个图片相似度算法

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义