约翰逊-林登斯特劳斯定理
约翰逊-林登斯特劳斯定理(Johnson–Lindenstrauss theorem),又称约翰逊-林登斯特劳斯引理(Johnson–Lindenstrauss lemma),是由William Johnson和Joram Lindenstrauss于1984年提出的一个关于降维的著名定理[1],在现代机器学习,尤其是压缩感知、降维、形状分析和分布学习等领域中有很重要的应用[2][3][4][5]。
这个定理告诉我们,一个高维空间中的点集,可以被线性地镶嵌到低维空间中,同时其空间结构只遭受比较小的形变[6]。约翰逊-林登斯特劳斯定理的证明,还说明了如何用随机投影法明确地求出这个变换,所用的算法只需要随机多项式时间[7]。当然,降维不是免费的:如果要求形变很少的话,代价是被嵌入的低维空间维数不能很低;反之亦然,如果要求将点集嵌入很低维的空间,那么就不能很好地控制结构形变的程度。
因为能将维数下降到样本量的对数阶,更兼所用的变换是线性的、显式的还可以被快速计算,约翰逊-林登斯特劳斯定理是一个力度非常强的结论。
定理陈述
对任何给定的以及维欧几里德空间中的个点,对于任意满足条件的正整数,存在一个线性映射,将这个点,从(维数可能很高的空间)中映射到(低维空间)中,同时“基本上”保持了点集成员两两之间的距离,即:对于任意两个点,都有
更进一步地,这个线性映射还可以在随机多项式时间内求出[7]。
直观理解
约翰逊-林登斯特劳斯定理揭示了一些关于降维映射深刻事实,其中一些还是违反简单直觉的[8]。因此,要想直观地理解这个定理,对初学者来说,可能比从数学式子上读懂证明还要难(反而此定理的证明只用到了比较简单的关于投影的随机误差不等式[9])。举例来说,定理的结论表明,度量形变程度的误差参数以及低维空间的维数这两个度量降维水准的关键量,均与原始数据所在的空间维数或者原始的个点具体为何种空间结构无关,这是很不平凡的[9]。
参考文献
- Johnson, William B; Lindenstrauss, Joram. . Contemporary mathematics. 1984, 26 (1): 189-206.
- Devdatt Dubhashi. (PDF). simons.berkeley.edu. [2018-11-13].
- Suresh Venkat. . cstheory.stackexchange.com. [2018-11-13].
- Krahmer, Felix; Ward, Rachel. . SIAM Journal on Mathematical Analysis. 2011, 43 (3): 1269--1281.
- Akselrod-Ballin, Ayelet; Bock, Davi and Reid, R Clay and Warfield, Simon K. . IEEE transactions on medical imaging. 2011, 30 (7): 1427--1438.
- Paul Beame. (PDF). courses.cs.washington.edu. [2018-11-13].
- Dasgupta, Sanjoy; Gupta, Anupam. . Random Structures & Algorithms. 2003, 22 (1): 60--65.
- Sariel Har-Peled. (PDF). sarielhp.org. [2018-11-13].
- Roman Vershynin. . Cambridge University Press. 2018-08-01. ISBN 9781108415194.
- Alon, Noga. . Discrete Mathematics. 2003, 273 (1-3): 31--53.
- Larsen, Kasper Green; Nelson, Jelani. . 2017 IEEE 58th Annual Symposium on Foundations of Computer Science (FOCS). IEEE: 633––638. 2017.
- Michael Mahoney. (PDF). cs.stanford.edu. [2018-11-13].