Dice系数

Dice系数, 根据 Lee Raymond Dice[1] 命名，是一种集合相似度度量函数，通常用于计算两个样本的相似度：

s={\frac {2|X\cap Y|}{|X|+|Y|}}

它和Sørensen 相似度指数相同, 也称作Sørensen-Dice系数。它在形式上和Jaccard指数没多大区别，但是有些不同的性质。

和Jaccard类似，它的范围为0到1。与Jaccard不同的是，相应的差异函数

d=1-{\frac {2|X\cap Y|}{|X|+|Y|}}

不是一个合适的距离度量措施，因为它没有三角形不等性的性质。例如给定 {a}, {b}, 和 {a,b}, 前两个集合的距离为1，而第三个集合和其他任意两个集合的距离为三分之一。

与Jaccard类似, 集合操作可以用两个向量 A 和B的操作来表示:

$s_{v}={\frac {2|A\cdot B|}{|A|^{2}+|B|^{2}}}$

上式给出了两个向量的距离输出，也给出了更一般情况下向量之间的相似度度量措施。 Dice 系数可以计算两个字符串的相似度：Dice（s1,s2）=2*comm(s1,s2)/(leng(s1)+leng(s2))。其中，comm (s1,s2)是s1、s2 中相同字符的个数leng(s1)，leng(s2)是字符串s1、s2 的长度。

在信息检索中, 给定关键词集合X 和Y ，相似度定义为两倍的共同信息(重叠部分)除以基数的总和 :[2]

当作为字符串之间的相似度度量时, 计算两个字符串之间的系数, x 和y，使用 bigrams 公式如下:[3]

s={\frac {2n_{t}}{n_{x}+n_{y}}}

其中n_t 是两个字符串共有的bigrams的个数, n_x 是 x中bigrams的个数，n_y 是 y中bigrams的个数。例如要计算下面两个字符串之间的相似度:

night

nacht

我们可以在各个单词中得出如下bigrams集合:

{ni,ig,gh,ht}

{na,ac,ch,ht}

每个集合有4个元素, 这个两个集合只有一个相同的元素: ht.

代入公式我们可以计算出, s = (2 · 1) / (4 + 4) = 0.25.

同见

雅卡爾指數（Jaccard index）, 等同于: $D=2J/(1+J)$ and $J=D/(2-D)$
Tversky index
Levenshtein distance
Sørensen similarity index

参考文献

Dice, Lee R. . Ecology. 1945, 26 (3): 297–302. JSTOR 1932409. doi:10.2307/1932409.
van Rijsbergen, Cornelis Joost. . London: Butterworths. 1979 [2012-05-26]. ISBN 3-642-12274-4. （原始内容存档于2005-04-06）.
Kondrak, Grzegorz; Marcu, Daniel; and Knight, Kevin. (PDF). : 46–48. 2003 [2012-05-26]. （原始内容存档 (PDF)于2016-03-04）.

参考资料

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Dice, Lee R. . Ecology. 1945, 26 (3): 297–302. JSTOR 1932409. doi:10.2307/1932409.

[2] van Rijsbergen, Cornelis Joost. . London: Butterworths. 1979 [2012-05-26]. ISBN 3-642-12274-4. （原始内容存档于2005-04-06）.

[3] Kondrak, Grzegorz; Marcu, Daniel; and Knight, Kevin. (PDF). : 46–48. 2003 [2012-05-26]. （原始内容存档 (PDF)于2016-03-04）.