首页 > 资讯 > 后端开发 > Python >Python 中怎么实现一个k-means 均值聚类算法

603

分享到

Python 中怎么实现一个k-means 均值聚类算法

2023-06-02 02:06:04 603人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

python 中怎么实现一个k-means 均值聚类算法，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。scikti-learn 将机器学习分为4个领域，分别是分

python 中怎么实现一个k-means 均值聚类算法，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。

scikti-learn 将机器学习分为4个领域，分别是分类(classification)、聚类(clustering)、回归(regression)和降维(dimensionality reduction)。k-means均值算法虽然是聚类算法中比较简单的一种，却包含了丰富的思想内容，非常适合作为初学者的入门习题。

Python 中怎么实现一个k-means 均值聚类算法

关于 k-means 均值聚类算法的原理介绍、实现代码，网上有很多，但运行效率似乎都有点问题。今天稍微有点空闲，写了一个不足20行的 k-means 均值聚类算法，1万个样本平均耗时20毫秒（10次均值）。同样的数据样本，网上流行的算法平均耗时3000毫秒（10次均值）。差距竟然达百倍以上，令我深感意外，不由得再次向 numpy 献上膝盖！

以下是我的代码，包含注释、空行总共26行，有效代码16行。

 1import numpy as np 2 3Def kmeans_xufive(ds, k): 4 """k-means聚类算法 5 6 k - 指定分簇数量 7 ds - ndarray(m, n)，m个样本的数据集，每个样本n个属性值 8 """ 910 m, n = ds.shape # m：样本数量，n：每个样本的属性值个数11 result = np.empty(m, dtype=np.int) # m个样本的聚类结果12 cores = np.empty((k, n)) # k个质心13 cores = ds[np.random.choice(np.arange(m), k, replace=False)] # 从m个数据样本中不重复地随机选择k个样本作为质心1415 while True: # 迭代计算16 d = np.square(np.repeat(ds, k, axis=0).reshape(m, k, n) - cores)17 distance = np.sqrt(np.sum(d, axis=2)) # ndarray(m, k)，每个样本距离k个质心的距离，共有m行18 index_min = np.argmin(distance, axis=1) # 每个样本距离最近的质心索引序号1920 if (index_min == result).all(): # 如果样本聚类没有改变21 return result, cores # 则返回聚类结果和质心数据2223 result[:] = index_min # 重新分类24 for i in range(k): # 遍历质心集25 items = ds[result==i] # 找出对应当前质心的子样本集26 cores[i] = np.mean(items, axis=0) # 以子样本集的均值作为当前质心的位置

这是网上比较流行的 k-means 均值聚类算法代码，包含注释、空行总共57行，有效代码37行。

 1import numpy as np 2 3# 加载数据 4def loadDataSet(fileName): 5 data = np.loadtxt(fileName,delimiter='\t') 6 return data 7 8# 欧氏距离计算 9def distEclud(x,y):10 return np.sqrt(np.sum((x-y)**2)) # 计算欧氏距离1112# 为给定数据集构建一个包含K个随机质心的集合13def randCent(dataSet,k):14 m,n = dataSet.shape15 centroids = np.zeros((k,n))16 for i in range(k):17 index = int(np.random.unifORM(0,m)) #18 centroids[i,:] = dataSet[index,:]19 return centroids2021# k均值聚类22def kmeans_open(dataSet,k):2324 m = np.shape(dataSet)[0] #行的数目25 # 第一列存样本属于哪一簇26 # 第二列存样本的到簇的中心点的误差27 clusterASSMent = np.mat(np.zeros((m,2)))28 clusterChange = True2930 # 第1步 初始化centroids31 centroids = randCent(dataSet,k)32 while clusterChange:33 clusterChange = False3435 # 遍历所有的样本（行数）36 for i in range(m):37 minDist = 100000.038 minIndex = -13940 # 遍历所有的质心41 #第2步 找出最近的质心42 for j in range(k):43 # 计算该样本到质心的欧式距离44 distance = distEclud(centroids[j,:],dataSet[i,:])45 if distance < minDist:46 minDist = distance47 minIndex = j48 # 第 3 步：更新每一行样本所属的簇49 if clusterAssment[i,0] != minIndex:50 clusterChange = True51 clusterAssment[i,:] = minIndex,minDist**252 #第 4 步：更新质心53 for j in range(k):54 pointsInCluster = dataSet[np.nonzero(clusterAssment[:,0].A == j)[0]] # 获取簇类所有的点55 centroids[j,:] = np.mean(pointsInCluster,axis=0) # 对矩阵的行求均值5657 return clusterAssment.A[:,0], centroids

函数create_data_set()，用于生成测试数据。可变参数 cores 是多个三元组，每一个三元组分别是质心的x坐标、y坐标和对应该质心的数据点的数量。

 1def create_data_set(*cores): 2 """生成k-means聚类测试用数据集""" 3 4 ds = list() 5 for x0, y0, z0 in cores: 6 x = np.random.normal(x0, 0.1+np.random.random()/3, z0) 7 y = np.random.normal(y0, 0.1+np.random.random()/3, z0) 8 ds.append(np.stack((x,y), axis=1)) 910 return np.vstack(ds)

测试代码如下：

 1import time 2import matplotlib.pyplot as plt 3 4k = 4 5ds = create_data_set((0,0,2500), (0,2,2500), (2,0,2500), (2,2,2500)) 6 7t0 = time.time() 8result, cores = kmeans_xufive(ds, k) 9t = time.time() - t01011plt.scatter(ds[:,0], ds[:,1], s=1, c=result.astype(np.int))12plt.scatter(cores[:,0], cores[:,1], marker='x', c=np.arange(k))13plt.show()1415print(u'使用kmeans_xufive算法，1万个样本点，耗时%f0.3秒'%t)1617t0 = time.time()18result, cores = kmeans_open(ds, k)19t = time.time() - t02021plt.scatter(ds[:,0], ds[:,1], s=1, c=result.astype(np.int))22plt.scatter(cores[:,0], cores[:,1], marker='x', c=np.arange(k))23plt.show()2425print(u'使用kmeans_open算法，1万个样本点，耗时%f0.3秒'%t)

测试结果如下：

1PS D:\Xufivegit\CSDN\code> py -3 .\k-means.py2使用kmeans_xufive算法，1万个样本点，耗时0.0156550.3秒3使用kmeans_open算法，1万个样本点，耗时3.9990890.3秒

效果如下：

Python 中怎么实现一个k-means 均值聚类算法

看完上述内容是否对您有帮助呢？如果还想对相关知识有进一步的了解或阅读更多相关文章，请关注编程网Python频道，感谢您对编程网的支持。

您可能感兴趣的文档:

--结束END--

本文标题: Python 中怎么实现一个k-means 均值聚类算法

本文链接: https://lsjlt.com/news/228545.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python 中怎么实现一个k-means 均值聚类算法

Python 中怎么实现一个k-means 均值聚类算法

Python实现聚类K-means算法

python中实现k-means聚类算法详解

Python实现聚类K-means算法详解

Python如何实现聚类K-means算法

利用Python如何实现K-means聚类算法

人工智能——K-Means聚类算法及Python实现

如何使用Python语言实现K-Means聚类算法

python怎么实现K-means算法

Python聚类算法之基本K均值实例详解

（python实现）一篇文章教会你k-means聚类算法（包括最优聚类数目k的确定）

K均值聚类算法的Java版实现代码示例

利用python实现聚类分析K-means算法的详细过程

python利用K-Means算法实现对数据的聚类案例详解

K-means聚类算法介绍与利用python实现的代码示例

K-Means聚类算法及其python实现（已附上代码至本博客）

如何用K-means算法的Java实现聚类分析681个三国武将

K-means算法怎么在Python中应用

python中k-means和k-means++原理是什么及怎么实现

Python实现K-means聚类算法并可视化生成动图步骤详解

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义