斯皮尔曼等级相关系数

统计学中,斯皮尔曼等级相关系数(英語:Spearman's rank correlation coefficient 或 Spearman's ρ), 经常以希腊字母 (rho) 或以表示,此相關係數以查尔斯·斯皮尔曼之名命名。 它是衡量两个变量依赖性無母數指标。 它利用单调方程评价两个统计变量的相关性。若数据中没有重复值,且当两变量完全单调相关时,斯皮尔曼相关系数为 +1 或 −1 。

斯皮尔曼等级相关系数为1表明两个被比较的变量是相关的,即使它们之间的关系并非线性的。 相较而言, 它并未给出完整的皮尔逊相关系数。
当数据大致分布并没有明显的离群点,皮尔逊相关系数的值和斯皮尔曼相关系数的值是相似的。
对样本中的显著离群点,斯皮尔曼相关系数比皮尔逊相关系数不敏感。

定义和计算

斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数[1]对于样本容量为n的样本,n原始数据被转换成等级数据, 相关系数ρ为

,其中等级数据 是每个原始数据的降序位置的平均。 如下表所示:

变量 降序位置(仅示意,不使用)降序位置的平均(使用)
0.855
1.24
1.23
2.322
1811

实际应用中, 变量间的连结是无关紧要的, 于是可以通过简单的步骤计算 ρ.[1][2] 被观测的两个变量的等级的差值 , 则 ρ 为

相关度量

度量一对观测数据的统计依赖性还有其他的几种度量指标: 在相关性和依赖性中有谈及。 其中最常用的是皮尔逊积矩相关系数

斯皮尔曼相关也可称为 「级别相关」;[3] 也就是说, 被观测数据的「等级」 被替换成 「级别」。 在连续的分布中, 被观测数据的级别,通常总是小于等级的一半。 然而,在这个案例中,级别和等级相关系数是一致的。 更一般的, 被观测数据的「级别」 与估计的总体样本的比值小于给定的值,即被观测值的一半。 也就是说,它是相应的等级系数的一种可能的解决方案。 虽然不常用, 「级别相关」还是仍然有被使用。[4]

解释

正的斯皮尔曼相关系数反应两个变量 XY 单调递增的趋势。
负的斯皮尔曼相关系数反应两个变量 XY 单调递减的趋势。

斯皮尔曼相关系数表明 X (独立变量) 和 Y (依赖变量)的相关方向。 如果当X增加时, Y 趋向于增加, 斯皮尔曼相关系数则为正。 如果当X增加时, Y 趋向于减少, 斯皮尔曼相关系数则为负。 斯皮尔曼相关系数为零表明当X增加时 Y没有任何趋向性。 当XY越来越接近完全的单调相关时,斯皮尔曼相关系数会在绝对值上增加。 当 XY完全单调相关时, 斯皮尔曼相关系数的绝对值为 1。 完全的单调递增关系意味着任意两对数据 Xi, YiXj, Yj, 有 Xi  XjYi  Yj 总是同号。 完全的单调递减关系意味着任意两对数据 Xi, YiXj, Yj, 有 Xi  XjYi  Yj 总是异号。

斯皮尔曼相关系数经常被称作 "非参数"的。 这里有两层含义。 首先, 当 XY的关系是由任意 单调函数描述的,则它们是完全皮尔逊相关的。与此相应的,皮尔逊相关系数只能给出由线性方程描述的 XY的相关性。其次,斯皮尔曼不需要先验知识(也就是说, 知道其参数)便可以准确获取XY的采样概率分布

示例

在此例中,我们要使用下表所给出的原始数据计算一个人的 智商和其每周花在 电视上的小时数的相关性。

智商, 每周花在电视上的小时数,
106 7
86 0
100 27
101 50
99 28
103 29
97 20
113 12
112 6
110 17

首先,我们必须根据以下步骤计算出 ,如下表所示。

  1. 排列第一列数据 ()。 创建新列 并赋以等级值 1,2,3,...n
  2. 然后,排列第二列数据 (). 创建第四列 并相似地赋以等级值 1,2,3,...n
  3. 创建第五列 保存两个等级列的差值 ().
  4. 创建最后一列 保存 的平方.
智商, 每周花在电视上的小时数, 的排名 的排名
86 0 1 1 0 0
97 20 2 6 −4 16
99 28 3 8 −5 25
100 27 4 7 −3 9
101 50 5 10 −5 25
103 29 6 9 −3 9
106 7 7 3 4 16
110 17 8 5 3 9
112 6 9 2 7 49
113 12 10 4 6 36

根据 计算 。 样本容量n为 10。 将这些值带入方程

ρ = −0.175757575...

P-value = 0.6864058 (使用 t分布)

这个值很大表明上述两个变量的关系很小。 原始数据不能用于此方程中,相应的, 应使用皮尔逊相关系数计算等级。

显著性的确定

一种确定被观测数据的 ρ 值是否显著不为零(r 总是有 1 ≥ r ≥ −1)的方法是计算它是否大于 r的概率,作为 原假设,并使用分层排列测试进行检验。 这种方法的优势之处在于它考虑了样本中的数据个数和在使用样本计算等级相关系数的风险。

另外的一种方法是使用皮尔逊积矩中使用到的费雪变换。也就是,ρ 的置信区间零检验可以通过费雪变换获得

如果 F(r) 是 r 的Fisher变换, 则

rz-值 ,其中,r统计依赖 = 0).[5][6]零假设下 近似服从标准 正态分布

显著性为

其在零假设下近似服从自由度为 n  2的t分布[7] A justification for this result relies on a permutation argument.[8]

一般地,斯皮尔曼相关系数在有三个或更多条件的情况下是有用的。并且,它预测观测数据有一个特定的顺序。 例如,在同一任务中,一系列的个体会被尝试多次,并预测在多次尝试过程中,性能会得到提升。在这种情况下,对条件间趋势的显著性检验由E. B. Page[9] 发展了,并通常称为给定序列下的 Page趋势测验

基于斯皮尔曼相关系数的一致性分析

经典的 一致性分析 是一种统计方法,它给两个标称变量赋给一个分数。 通过这种方法, 两个变量间的皮尔逊相关系数被最大化了。

有一种被称为级别相关分析的等价方法, 它最大化了斯皮尔曼相关系数或 肯德尔相关系数.[10]

参见

維基學院中的相關研究或學習資源:斯皮尔曼等级相关系数
  • Kendall tau rank correlation coefficient
  • Rank correlation
  • Chebyshev's sum inequality, rearrangement inequality (These two articles may shed light on the mathematical properties of Spearman's ρ.)
  • Pearson product-moment correlation coefficient, a similar correlation method that measures the "linear" relationships between the raw numbers rather than between their ranks.
  • 圖模式
  • 马尔可夫链
  • 马尔可夫逻辑网络

引文

  1. Myers, Jerome L.; Well, Arnold D., 2nd, Lawrence Erlbaum: 508, 2003, ISBN 0-8058-4037-0
  2. Maritz. J.S. (1981) Distribution-Free Statistical Methods, Chapman & Hall. ISBN 0-412-15940-6. (page 217)
  3. Yule, G.U and Kendall, M.G. (1950), "An Introduction to the Theory of Statistics", 14th Edition (5th Impression 1968). Charles Griffin & Co. page 268
  4. Piantadosi, J.; Howlett, P.; Boland, J. (2007) "Matching the grade correlation coefficient using a copula with maximum disorder", Journal of Industrial and Management Optimization, 3 (2), 305–312
  5. Choi, S.C. (1977) Test of equality of dependent correlations. Biometrika, 64 (3), pp. 645–647
  6. Fieller, E.C.; Hartley, H.O.; Pearson, E.S. (1957) Tests for rank correlation coefficients. I. Biometrika 44, pp. 470–481
  7. Press, Vettering, Teukolsky, and Flannery (1992) Numerical Recipes in C: The Art of Scientific Computing, 2nd Edition, page 640
  8. Kendall, M.G., Stuart, A. (1973)The Advanced Theory of Statistics, Volume 2: Inference and Relationship, Griffin. ISBN 0-85264-215-6 (Sections 31.19, 31.21)
  9. Page, E. B. . Journal of the American Statistical Association. 1963, 58 (301): 216–230. doi:10.2307/2282965.
  10. Kowalczyk, T.; Pleszczyńska E. , Ruland F. (eds.). . Studies in Fuzziness and Soft Computing vol. 151. Berlin Heidelberg New York: Springer Verlag. 2004. ISBN 978-3-540-21120-4.
  • G.W. Corder, D.I. Foreman, "Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach", Wiley (2009)
  • C. Spearman, "The proof and measurement of association between two things" Amer. J. Psychol., 15 (1904) pp. 72–101
  • M.G. Kendall, "Rank correlation methods", Griffin (1962)
  • M. Hollander, D.A. Wolfe, "Nonparametric statistical methods", Wiley (1973)
  • J. C. Caruso, N. Cliff, "Empirical Size, Coverage, and Power of Confidence Intervals for Spearman's Rho", Ed. and Psy. Meas., 57 (1997) pp. 637–654

外部链接

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.