主成分分析
From Ufldl
(→Recovering an Approximation of the Data 数据还原) |
(→Number of components to retain 选择主成分个数) |
||
Line 493: | Line 493: | ||
如果要训练一个自动编码器或其它无监督特征学习算法,算法运行时间将依赖于输入数据的维数。若用<math>\textstyle \tilde{x} \in \Re^k</math>取代<math>\textstyle x</math>作为输入数据,那么算法将使用低维数据进行训练,运行速度将显著加快。对于很多数据集来说,低维表征量<math>\textstyle \tilde{x}</math>即为原数据集的极佳近似,如此使用PCA算法可在只产生极小近似误差的同时,显著地提高运行速度。 | 如果要训练一个自动编码器或其它无监督特征学习算法,算法运行时间将依赖于输入数据的维数。若用<math>\textstyle \tilde{x} \in \Re^k</math>取代<math>\textstyle x</math>作为输入数据,那么算法将使用低维数据进行训练,运行速度将显著加快。对于很多数据集来说,低维表征量<math>\textstyle \tilde{x}</math>即为原数据集的极佳近似,如此使用PCA算法可在只产生极小近似误差的同时,显著地提高运行速度。 | ||
+ | |||
+ | |||
== Number of components to retain 选择主成分个数 == | == Number of components to retain 选择主成分个数 == | ||
Line 601: | Line 603: | ||
\end{align}</math> | \end{align}</math> | ||
对其它应用,如不介意引入稍大的误差,有时也仅保留90-98%的方差范围。若向他人介绍PCA算法,告诉他们你选择的<math>\textstyle k</math>是为保留95%的方差,比告诉他们你保留了前120个(或任意某个数字)主成分更便于他人理解。 | 对其它应用,如不介意引入稍大的误差,有时也仅保留90-98%的方差范围。若向他人介绍PCA算法,告诉他们你选择的<math>\textstyle k</math>是为保留95%的方差,比告诉他们你保留了前120个(或任意某个数字)主成分更便于他人理解。 | ||
- | |||
- | |||
== PCA on Images 对图像数据应用PCA算法 == | == PCA on Images 对图像数据应用PCA算法 == |