数据预处理
From Ufldl
Line 4: | Line 4: | ||
== 概要 == | == 概要 == | ||
- | + | 数据预处理在众多深度学习算法中都起着重要作用,实际情况中,将数据做归一化和白化处理后,很多算法能够发挥最佳效果。然而除非对这些算法有丰富的使用经验,否则预处理的精确参数并非显而易见。在本页中,我们希望能够揭开预处理方法的神秘面纱,同时为预处理数据提供技巧(和标准流程)。 | |
{{quote | | {{quote | | ||
Line 53: | Line 53: | ||
=== 基于正交化ICA的模型 === | === 基于正交化ICA的模型 === | ||
- | 对基于正交化ICA的模型来说,保证输入数据尽可能地白化(即协方差矩阵为单位矩阵)非常重要。这是因为:这类模型需要对学习到的特征做正交化,以解除不同维度之间的相关性(详细内容请参考[[Independent Component Analysis | ICA]]一节)。因此在这种情况下,<tt>epsilon</tt>要足够小(比如<math>epsilon = 1e-6</math>)。 | + | 对基于正交化ICA的模型来说,保证输入数据尽可能地白化(即协方差矩阵为单位矩阵)非常重要。这是因为:这类模型需要对学习到的特征做正交化,以解除不同维度之间的相关性(详细内容请参考[[Independent Component Analysis | ICA ]]一节)。因此在这种情况下,<tt>epsilon</tt>要足够小(比如<math>epsilon = 1e-6</math>)。 |
{{Quote| | {{Quote| | ||
- | 提示:我们也可以在PCA白化过程中同时降低数据的维度。这是一个很好的主意,因为这样可以大大提升算法的速度(减少了运算量和参数数目)。确定要保留的主成分数目有一个经验法则:即所保留的成分的总方差达到总样本方差的99%以上。(详细内容请参考[[PCA#Number_of_components_to_retain | PCA]]) | + | 提示:我们也可以在PCA白化过程中同时降低数据的维度。这是一个很好的主意,因为这样可以大大提升算法的速度(减少了运算量和参数数目)。确定要保留的主成分数目有一个经验法则:即所保留的成分的总方差达到总样本方差的99%以上。(详细内容请参考[[PCA#Number_of_components_to_retain | PCA ]]) |
}} | }} | ||