首页 > 资讯 > 后端开发 > Python >怎么在python中实现dbscan算法

784

分享到

怎么在python中实现dbscan算法

2023-06-15 04:06:32 784人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

今天就跟大家聊聊有关怎么在python中实现dbscan算法，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。DBSCAN 算法是一种基于密度的空间聚类算法。该算法利用基于密度的聚类的概

今天就跟大家聊聊有关怎么在python中实现dbscan算法，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

DBSCAN 算法是一种基于密度的空间聚类算法。该算法利用基于密度的聚类的概念，即要求聚类空间中的一定区域内所包含对象(点或其它空间对象)的数目不小于某一给定阀值。DBSCAN 算法的显著优点是聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。但是由于它直接对整个数据库进行操作且进行聚类时使用了一个全局性的表征密度的参数，因此也具有两个比较明显的弱点：

当数据量增大时，要求较大的内存支持 I/0 消耗也很大;

当空间聚类的密度不均匀、聚类间距离相差很大时，聚类质量较差。

DBSCAN算法的聚类过程

　　DBSCAN算法基于一个事实：一个聚类可以由其中的任何核心对象唯一确定。等价可以表述为：任一满足核心对象条件的数据对象p，数据库D中所有从p密度可达的数据对象所组成的集合构成了一个完整的聚类C，且p属于C。

先上结果

怎么在python中实现dbscan算法

大致流程

先根据给定的半径 r 确定中心点，也就是这类点在半径r内包含的点数量 n 大于我们的要求（n>=minPionts）
然后遍历所有的中心点，将互相可通达的中心点与其包括的点分为一组
全部分完组之后，没有被纳入任何一组的点就是离群点啦！

导入相关依赖

import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasets

求点跟点之间距离（欧氏距离）

def cuircl(pointA,pointB):    distance = np.sqrt(np.sum(np.power(pointA - pointB,2)))    return distance

求临时簇，即确定所有的中心点，非中心点

def firstCluster(dataSets,r,include):    cluster = []    m = np.shape(dataSets)[0]    ungrouped = np.array([i for i in range (m)])    for i in range (m):        tempCluster = []        #第一位存储中心点簇        tempCluster.append(i)        for j in range (m):            if (cuircl(dataSets[i,:],dataSets[j,:]) < r and i != j ):                tempCluster.append(j)        tempCluster = np.mat(np.array(tempCluster))        if (np.size(tempCluster)) >= include:            cluster.append(np.array(tempCluster).flatten())    #返回的是List    center=[]    n = np.shape(cluster)[0]    for k in range (n):        center.append(cluster[k][0])    #其他的就是非中心点啦    ungrouped = np.delete(ungrouped,center)    #ungrouped为非中心点    return cluster,center,ungrouped

将所有中心点遍历并进行聚集

def clusterGrouped(tempcluster,centers):    m = np.shape(tempcluster)[0]    group = []    #对应点是否遍历过    position = np.ones(m)    unvisited = []    #未遍历点    unvisited.extend(centers)    #所有点均遍历完毕    for i  in range (len(position)):        coreNeihbor = []        result = []        #删除第一个        #刨去自己的邻居结点，这一段就类似于深度遍历        if position[i]:        #将邻结点填入            coreNeihbor.extend(list(tempcluster[i][:]))            position[i] = 0            temp = coreNeihbor        #按照深度遍历遍历完所有可达点        #遍历完所有的邻居结点            while len(coreNeihbor) > 0 :                #选择当前点                present = coreNeihbor[0]                for j in range(len(position)):                    #如果没有访问过                    if position[j] == 1:                        same = []                        #求所有的可达点                        if (present in tempcluster[j]):                            cluster = tempcluster[j].tolist()                            diff = []                            for x in cluster:                                if x not in temp:                                    #确保没有重复点                                    diff.append(x)                            temp.extend(diff)                            position[j] = 0                # 删掉当前点                del coreNeihbor[0]                result.extend(temp)            group.append(list(set(result)))        i +=1    return group

核心算法完毕！

生成同心圆类型的随机数据进行测试

#生成非凸数据 factor表示内外圈距离比X,Y1 = datasets.make_circles(n_samples = 1500, factor = .4, noise = .07)#参数选择，0.1为圆半径，6为判定中心点所要求的点个数，生成分类结果tempcluster,center,ungrouped = firstCluster(X,0.1,6)group = clusterGrouped(tempcluster,center)#以下是分类后对数据进行进一步处理num = len(group)voice = list(ungrouped)Y = []for i in range (num):   Y.append(X[group[i]])flat = []for i in range(num):    flat.extend(group[i])diff = [x for x in voice if x not in flat]Y.append(X[diff])Y = np.mat(np.array(Y))

绘图~

color = ['red','blue','green','black','pink','orange']for i in range(num):    plt.scatter(Y[0,i][:,0],Y[0,i][:,1],c=color[i])plt.scatter(Y[0,-1][:,0],Y[0,-1][:,1],c = 'purple')plt.show()

结果

紫色点就是离散点

怎么在python中实现dbscan算法

Python的数据类型有哪些?

python的数据类型：1. 数字类型，包括int（整型）、long（长整型）和float（浮点型）。2.字符串，分别是str类型和unicode类型。3.布尔型，Python布尔类型也是用于逻辑运算，有两个值：True（真）和False（假）。4.列表，列表是Python中使用最频繁的数据类型，集合中可以放任何数据类型。5. 元组，元组用”()”标识，内部元素用逗号隔开。6. 字典，字典是一种键值对的集合。7. 集合，集合是一个无序的、不重复的数据组合。

看完上述内容，你们对怎么在python中实现dbscan算法有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注编程网Python频道，感谢大家的支持。

您可能感兴趣的文档:

--结束END--

本文标题: 怎么在python中实现dbscan算法

本文链接: https://lsjlt.com/news/277528.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

怎么在python中实现dbscan算法

大致流程

导入相关依赖

求点跟点之间距离（欧氏距离）

求临时簇，即确定所有的中心点，非中心点

Python的数据类型有哪些?

怎么在python中实现dbscan算法

python实现dbscan算法

Python中DBSCAN怎么实现

Python中怎么利用DBSCAN实现一个密度聚类算法

深度解读Python如何实现dbscan算法

Python实现DBSCAN聚类算法并样例测试

【机器学习】DBSCAN聚类算法（含Python实现）

怎么在Python中实现决策树算法

怎么在python中实现矩阵乘法运算

怎么在python中实现列表运算

怎么在react中实现一个diff算法

怎么在java中实现一个gc算法

Python中怎么正确实现一个算法

Python中怎么实现快速排序算法

怎么在Python中实现一个PyArmadillo计算库

怎么在Python中利用排序算法实现插入排序

Python怎么实现遗传算法

python怎么实现K-means算法

怎么在Python中使用dHash算法

python中怎么实现一个Progressive Morphological Filter算法

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义