从自我学习到深层网络

From Ufldl

Jump to: navigation, search
Line 1: Line 1:
-
初译: 新浪微博,@幸福数据挖掘者  http://weibo.com/u/2275505165?topnav=1&wvr=5
 
-
 
-
一审: 新浪微博,@ztyan http://weibo.com/ztyan
 
-
 
-
wiki上传: 新浪微博,@幸福数据挖掘者  http://weibo.com/u/2275505165?topnav=1&wvr=5
 
-
 
在前一节中,我们利用自编码器来学习输入至softmax或logistic回归分类器的特征。这些特征仅利用未标注数据学习获得。在本节中,我们描述如何利用未标注数据进行'''微调''',从而进一步优化这些特征。如果有大量已标注数据,通过微调就可以显著提升分类器的性能。
在前一节中,我们利用自编码器来学习输入至softmax或logistic回归分类器的特征。这些特征仅利用未标注数据学习获得。在本节中,我们描述如何利用未标注数据进行'''微调''',从而进一步优化这些特征。如果有大量已标注数据,通过微调就可以显著提升分类器的性能。
Line 11: Line 5:
在自我学习中,我们首先利用未标注数据训练一个稀疏自编码器。随后,给定一个新样本<math>\textstyle x</math>,我们通过隐含层提取出特征<math>\textstyle a</math>。上述过程图示如下:
在自我学习中,我们首先利用未标注数据训练一个稀疏自编码器。随后,给定一个新样本<math>\textstyle x</math>,我们通过隐含层提取出特征<math>\textstyle a</math>。上述过程图示如下:
-
[[File:Section15_Fig1.jpg]]
+
[[File:STL_SparseAE_Features.png|300px]]
我们感兴趣的是分类问题,目标是预测样本的类别标号<math>\textstyle y</math>。我们拥有标注数据集<math>\textstyle \{ (x_l^{(1)}, y^{(1)}), (x_l^{(2)}, y^{(2)}), \ldots (x_l^{(m_l)},y^{(m_l)}) \}</math>,包含<math>\textstyle m_l</math>个标注样本。此前我们已经说明,可以利用稀疏自编码器获得的特征<math>\textstyle a^{(l)}</math>来替代原始特征。这样就可获得训练数据集<math>\textstyle \{(a^{(1)},y^{(1)}), \ldots (a^{(m_l)}, y^{(m_l)}) \}</math>。最终,我们训练出一个从特征<math>\textstyle a^{(i)}</math>到类标号<math>\textstyle y^{(i)}</math>的logistic分类器。为说明这一过程,我们按照[[神经网络|神经网络]]一节中的方式,用下图描述logistic回归单元(橘黄色)。
我们感兴趣的是分类问题,目标是预测样本的类别标号<math>\textstyle y</math>。我们拥有标注数据集<math>\textstyle \{ (x_l^{(1)}, y^{(1)}), (x_l^{(2)}, y^{(2)}), \ldots (x_l^{(m_l)},y^{(m_l)}) \}</math>,包含<math>\textstyle m_l</math>个标注样本。此前我们已经说明,可以利用稀疏自编码器获得的特征<math>\textstyle a^{(l)}</math>来替代原始特征。这样就可获得训练数据集<math>\textstyle \{(a^{(1)},y^{(1)}), \ldots (a^{(m_l)}, y^{(m_l)}) \}</math>。最终,我们训练出一个从特征<math>\textstyle a^{(i)}</math>到类标号<math>\textstyle y^{(i)}</math>的logistic分类器。为说明这一过程,我们按照[[神经网络|神经网络]]一节中的方式,用下图描述logistic回归单元(橘黄色)。
-
[[File:Section15_Fig2.jpg]]
+
::::[[File:STL_Logistic_Classifier.png|380px]]
考虑利用这个方法所学到的分类器(输入-输出映射)。它描述了一个把测试样本<math>\textstyle x</math>映射到预测值<math>\textstyle p(y=1|x)</math>的函数。将此前的两张图片结合起来,就得到该函数的图形表示。也即,最终的分类器可以表示为:
考虑利用这个方法所学到的分类器(输入-输出映射)。它描述了一个把测试样本<math>\textstyle x</math>映射到预测值<math>\textstyle p(y=1|x)</math>的函数。将此前的两张图片结合起来,就得到该函数的图形表示。也即,最终的分类器可以表示为:
-
[[File:Section15_Fig3.jpg]]
+
[[File:STL_CombinedAE.png|500px]]
Line 39: Line 33:
在什么时候应用微调?通常仅在有大量已标注训练数据的情况下使用。在这样的情况下,微调能显著提升分类器性能。然而,如果有大量未标注数据集(用于非监督特征学习/预训练),却只有相对较少的已标注训练集,微调的作用非常有限。
在什么时候应用微调?通常仅在有大量已标注训练数据的情况下使用。在这样的情况下,微调能显著提升分类器性能。然而,如果有大量未标注数据集(用于非监督特征学习/预训练),却只有相对较少的已标注训练集,微调的作用非常有限。
 +
 +
 +
{{CNN}}
 +
 +
 +
==中文译者==
 +
 +
@幸福数据挖掘者,阎志涛(zhitao.yan@gmail.com),王文中(wangwenzhong@ymail.com)

Revision as of 02:57, 29 March 2013

Personal tools