也称肯德尔秩相关（Kendall Rank Correlation），肯德尔相关系数通常也称为“Kendall’s tau coefficient”，顾名思义，肯德尔相关系数通常用希腊字母 gif.latex?%5Ctau 来表示（斯皮尔曼相关系数则用 gif.latex?r 来表示，在scipy.stats中两个相关系数计算的函数名kendalltau()和spearmanr()非常清楚地）。

与斯皮尔曼秩相关相似的是，肯德尔相关也是一种秩相关系数，是基于数据对象的秩（rank）来进行两个（随机变量）之间的相关关系（强弱和方向）的评估。所分析的目标对象应该是一种有序的类别变量，比如名次、年龄段、肥胖等级(重度肥胖，中度肥胖、轻度肥胖、不肥胖)等。

不同的是，斯皮尔曼相关是基于秩差（比如说，小明在班级中的历史成绩排名为10，英语成绩排名为4，那么在这个班级的学生的历史成绩和英语成绩的斯皮尔曼相关分析中，小明的成绩的贡献就是(10-4=6) ）来进行相关关系的评估；而肯德尔相关则是基于样本数据对之间的关系来进行相关系数的强弱的分析，数据对可以分为一致对(Concordant)和分歧对(Discordant)。

比如说变量X的两个样本值记为 gif.latex?x_1%2C%20x_2 ，与之相对应的变量Y的两个样本值分别记为 gif.latex?y_1%2C%20y_2 。

一致对(Concordant)是指两个变量的这一对样本值取值的相对关系一致，可以理解为 gif.latex?x_2-x_1 与 gif.latex?y_2-y_1 有相同的符号，即 gif.latex?%28x_2%20-%20x_1%29%28y_2-y_1%29%20%5Cgeq%200 ；

分歧对是指这一对样本值取值的相对关系不一致，即 gif.latex?%28x_2%20-%20x_1%29%28y_2-y_1%29%20%3C%200 。

当数据样本比较小，而且存在并列排位（tied ranks，比如说小明的历史成绩和英语成绩排名都是第8名）时，肯德尔相关系数是比斯皮尔曼相关系数更合适的一个相关性衡量指标。

适合于采用肯德尔相关系数分析的一些问题例如下所示：

学生的考试成绩分级 (A, B, C…) 和他平均每天学习所投入的时间分级 (<2 hours, 2–4 hours, 5–7 hours…)时间的相关性
顾客满意度 (比如说：非常满意，比较满意，一般。。。) 以及递送时间 (< 30 Minutes, 30 minutes — 1 Hour, 1–2 Hours etc)
。。。

3. 肯德尔相关的假设

在适用肯德尔相关分析前首先要检查数据是否满足以下基本假设，满足了这些基本假设才能确保你所得到的相关分析结果是有效的。

变量数据是有序的（ ordinal）或者是连续的（continuous）. 有序尺度（Ordinal scales ）的数据通常用于用数值的方式来衡量非数值的概念，比如说，满意度，幸福度等等，还有像成绩排名啊、比赛名次啊之类的。而连续尺度的数据就勿需解释了，常见的温度啊、体重啊、收入啊等等都（或严格、或近似）算是连续尺度的数据。
两个变量的数据之间应该遵循单调关系（ monotonic relationship）。简而言之就是，其中一个变量的值增大，另一个也增大，这个称为正相关；或者一个变量的值增大，另一个就变小，这个称为负相关。当然，这个单调关系是一个统计意义上的，或者说一种趋势上的，而非严格的单调。如下如所示。左图和中图都呈现一种近似单调的关系，而右图则不是，因为右图的左半部分和右半部分的趋势是相反的。

4. 计算公式及代码示例

肯德尔系数有两个计算公式，一个称为Tau-c，另一个称为Tau-b。两者的区别是Tau-b可以处理有相同值的情况，即并列排位(tied ranks)。下面分别说明这两个公式。

4.1 Tau-a

$gif.latex?%5Ctau_a%3D%5Cfrac%7Bc-d%7D%7B%5Cfrac%7B1%7D%7B2%7Dn%28n-1%29%7D$

其中，n表示样本个数。如上所述，肯德尔相关系数是基于数据对来进行分析的，n个样本每两两组队所得到的组队数就是 $gif.latex?%5Cfrac%7B1%7D%7B2%7Dn%28n-1%29$ ，Tau-a的分母即来自于此。分子中c和d则分别代表一致对和分歧对的个数。

计算例如下所示：

# Example4 -- Kendall correlation coefficientfrom scipy.stats.stats import kendalltaudat1 = np.array([3,5,1,9,7,2,8,4,6])dat2 = np.array([5,3,2,6,8,1,7,9,4])fig,ax = plt.subplots()ax.scatter(dat1,dat2)kendalltau(dat1,dat2)

KendalltauResult(correlation=0.3888888888888889, pvalue=0.18018077601410934)

当然也可以写一段自己的代码来实现相关系数的计算，这样能够更加确切地知道到底是如何计算的，代码示例如下：

c = 0d = 0for i in range(len(dat1)):    for j in range(i+1,len(dat1)):        if (dat1[i]-dat1[j])*(dat2[i]-dat2[j])>0:            c = c + 1        else:            d = d + 1k_tau = (c - d) * 2 / len(dat1)/(len(dat1)-1)            print('k_tau = {0}'.fORMat(k_tau))

运行以上代码同样可以得到0.3888...的结果，只不过没有给出p-value分析结果（这个稍微麻烦一些，此处暂且略过）。

4.2 Tau-b

在以上Tau-a的计算中假定原始数据中不存在并列排位。当原始数据中存在并列排位时，则用以下公式能够给出更准确的分析结果。

$gif.latex?%5Ctau_b%20%3D%20%5Cfrac%7Bc-d%7D%7B%5Csqrt%7B%28c+d+t_x%29%28c+d+t_y%29%7D%7D$

其中c和d则分别代表一致对和分歧对的个数， gif.latex?t_x 和 gif.latex?t_y 则分别表示数据X中的并列排位个数，和数据Y中的并列排位个数。注意，如果是同时发生在X和Y中并列排位，则既不计入，也不计入。

# Tau_bfrom scipy.stats.stats import kendalltaudat1 = np.array([3,5,1,6,7,2,8,8,4])dat2 = np.array([5,3,2,6,8,1,7,8,4])#dat1 = np.array([3,5,1,9,7,2,8,4,6])#dat2 = np.array([5,3,2,6,8,1,7,9,4])c = 0d = 0t_x = 0t_y = 0for i in range(len(dat1)):    for j in range(i+1,len(dat1)):        if (dat1[i]-dat1[j])*(dat2[i]-dat2[j])>0:            c = c + 1        elif (dat1[i]-dat1[j])*(dat2[i]-dat2[j])<0:            d = d + 1        else:            if (dat1[i]-dat1[j])==0 and (dat2[i]-dat2[j])!=0:                t_x = t_x + 1            elif (dat1[i]-dat1[j])!=0 and (dat2[i]-dat2[j])==0:                t_y = t_y + 1                tau_b = (c - d) / np.sqrt((c+d+t_x)*(c+d+t_y))            print('tau_b = {0}'.format(tau_b))            print('kendalltau(dat1,dat2) =  {0}'.format(kendalltau(dat1,dat2)))

tau_b = 0.6857142857142857kendalltau(dat1,dat2) =  KendalltauResult(correlation=0.6857142857142857, pvalue=0.011424737055271894)

注意，这个数据用上面的tao_a的计算方式会得到不同的结果，有兴趣的小伙伴可以自行验证。

Kendall Rank Correlation Explained. | by Joseph Magiya | Towards Data Science

scipy.stats.kendalltau — SciPy v1.9.1 Manual

来源地址：https://blog.csdn.net/chenxy_bwave/article/details/126919019

您可能感兴趣的文档:

--结束END--

本文标题: 肯德尔（Kendall）相关系数概述及Python计算例

本文链接: https://lsjlt.com/news/409881.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

肯德尔（Kendall）相关系数概述及Python计算例

1. 何谓相关（correlation）?

2. 肯德尔相关

3. 肯德尔相关的假设

4. 计算公式及代码示例

4.1 Tau-a

4.2 Tau-b

肯德尔（Kendall）相关系数概述及Python计算例

python肯德尔系数相关性数据分析示例

使用Python计算皮尔逊相关系数，并用热力图展示

相关分析——皮尔逊相关系数、t显著性检验及Python实现

python皮尔逊相关性数据分析分析及实例代码

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义