降维

在机器学习和统计学领域，降维是指在某些限定条件下，降低随机变量个数，得到一组“不相关”主变量的过程[1]。降维可进一步细分为变量选择和特征提取两大方法。

机器学习与資料探勘

问题分类聚类回归异常检测自动机器学习关联规则强化学习结构预测特征学习線上機器學習無監督學習半监督学习排序学习语法归纳
監督式學習 (分类 · 回归) 决策树集成（装袋，提升，随机森林） k-NN 线性回归朴素贝叶斯神经网络逻辑回归感知器支持向量机（SVM）相关向量机（RVM）
聚类 BIRCH 层次 k-平均期望最大化（EM） DBSCAN OPTICS 均值飘移
降维因素分析 CCA ICA LDA NMF PCA LASSO t-SNE
结构预测概率图模型（贝叶斯网络，CRF, HMM）
异常检测 k-NN 局部离群因子
神经网络自编码深度学习多层感知机 RNN 受限玻尔兹曼机 SOM CNN
强化学习 Q学习 SARSA 时序差分学习深度强化学习
理论偏差/方差困境计算学习理论经验风险最小化 PAC学习统计学习 VC理论

变量选择

变量选择假定数据中包含大量冗余或无关变量（或称特征、属性、指标等），旨在从原有变量中找出主要变量。现代统计学中对变量选择的研究文献，大多集中于高维回归分析，其中最具代表性的方法包括：

Lasso (Robert Tibshirani提出)
Elastic net (邹晖和Trevor Hastie提出)
SCAD (范剑青和李润泽提出)
SURE screening (范剑青和吕金翅提出)
PLUS (张存惠提出)

特征提取

特徵提取可以看作变量选择方法的一般化：变量选择假设在原始数据中，变量数目浩繁，但只有少数几个真正起作用；而特征提取则认为在所有变量可能的函数(比如这些变量各种可能的线性组合)中，只有少数几个真正起作用。有代表性的方法包括：

主成分分析(PCA)
因子分析
核方法(教科书中称为“Kernel method”或“Kernel trick”，常与其他方法如PCA组合使用)
基于距离的方法，例如：
- 多维尺度分析
- 非负矩阵分解
- 随机投影法(理论依据是约翰逊-林登斯特劳斯定理)

参见

参考文献

Roweis, S. T.; Saul, L. K. . Science. 2000, 290 (5500): 2323–2326. PMID 11125150. doi:10.1126/science.290.5500.2323.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

This snapshot was generated and distributed by the Distributed Wikipedia Mirror project, a global effort, independent from Wikipedia.

Created on 2021-03 from the Kiwix ZIM file: wikipedia_zh_all_maxi_2021-02.zim

Canonical Link: https://zh.wikipedia.org/wiki/降维

Snapshot source revision: https://zh.wikipedia.org/wiki/?title=降维&oldid=64154105

This content is provided by a third party IPFS gateway. To report copyright infringement please contact the owner of zh.wikipedia-on-ipfs.org

Not sure where to start? Learn about IPFS here.