自我学习

From Ufldl

Jump to: navigation, search
(On pre-processing the data)
(On the terminology of unsupervised feature learning)
Line 48: Line 48:
在特征学习阶段,我们从未标注训练集<math>\textstyle \{ x_u^{(1)}, x_u^{(2)}, \ldots, x_u^{(m_u)}\}</math>中学习,这一过程中可能计算了各种数据预处理参数。例如计算数据均值并且对数据做均值标准化(mean normalization);或者对原始数据做主成分分析(PCA),然后将原始数据表示为<math>\textstyle U^Tx</math>(又或者使用PCA白化或ZCA白化)。这样的话,有必要将这些参数保存起来,并且在后面的训练和测试阶段使用同样的参数,以保证数据进入稀疏自编码神经网络之前经过了同样的变换。例如,如果对未标注数据集进行PCA预处理,就必须将得到的矩阵<math>\textstyle U</math>保存起来,并且应用到有标注训练集和测试集上;而不能使用有标注训练集重新估计出一个不同的矩阵<math>\textstyle U</math>(也不能重新计算均值并做均值标准化),否则的话可能得到一个完全不一致的数据预处理操作,导致进入自编码器的数据分布迥异于训练自编码器时的数据分布。
在特征学习阶段,我们从未标注训练集<math>\textstyle \{ x_u^{(1)}, x_u^{(2)}, \ldots, x_u^{(m_u)}\}</math>中学习,这一过程中可能计算了各种数据预处理参数。例如计算数据均值并且对数据做均值标准化(mean normalization);或者对原始数据做主成分分析(PCA),然后将原始数据表示为<math>\textstyle U^Tx</math>(又或者使用PCA白化或ZCA白化)。这样的话,有必要将这些参数保存起来,并且在后面的训练和测试阶段使用同样的参数,以保证数据进入稀疏自编码神经网络之前经过了同样的变换。例如,如果对未标注数据集进行PCA预处理,就必须将得到的矩阵<math>\textstyle U</math>保存起来,并且应用到有标注训练集和测试集上;而不能使用有标注训练集重新估计出一个不同的矩阵<math>\textstyle U</math>(也不能重新计算均值并做均值标准化),否则的话可能得到一个完全不一致的数据预处理操作,导致进入自编码器的数据分布迥异于训练自编码器时的数据分布。
-
== On the terminology of unsupervised feature learning ==
+
==无监督特征学习的术语==
-
'''[初译]'''
+
-
有关非监督特征学习的术语
+
-
'''[一审]'''
+
-
非监督特征学习术语
+
 +
有两种常见的无监督特征学习方式,区别在于你有什么样的未标注数据。自学习(self-taught learning)是其中更为一般的、更强大的学习方式,它不要求未标注数据<math> \textstyle x_u</math>和已标注数据<math> \textstyle x_l</math>来自同样的分布。另外一种带限制性的方式也被称为半监督学习,它要求<math> \textstyle x_u</math>和<math> \textstyle x_l</math>服从同样的分布。下面通过例子解释二者的区别。
-
'''[原文]'''
 
-
There are two common unsupervised feature learning settings, depending on what type of
 
-
unlabeled data you have.  The more general and powerful setting is the '''self-taught learning'''
 
-
setting, which does not assume that your unlabeled data <math>x_u</math> has to
 
-
be drawn from the same distribution as your labeled data <math>x_l</math>.  The
 
-
more restrictive setting where the unlabeled data comes from exactly the same
 
-
distribution as the labeled data is sometimes called the '''semi-supervised learning'''
 
-
setting.  This distinctions is best explained with an example, which we now give.
 
-
'''[初译]'''
+
假定有一个计算机视觉方面的任务,目标是区分汽车和摩托车图像;也即训练样本里面要么是汽车的图像,要么是摩托车的图像。哪里可以获取大量的未标注数据呢?最简单的方式可能是从互联网上下载一些随机的图像数据集,在这些数据上训练出一个稀疏自编码器,从中得到有用的特征。这个例子里,未标注数据完全来自于一个和已标注数据不同的分布(未标注数据集中,或许其中一些图像包含汽车或者摩托车,但是不是所有的图像都如此)。这种情形被称为自学习。
-
有两种常见的非监督特征学习设置,区别在于你拥有什么样的未标记数据。最为广泛应用的强大是自主学习设置,它不假设未标记数据<math>x_u</math>与被标记的数据<math>x_l</math>有着相同的分布。另一种有限制的设置是未被标记的数据与被标记的数据有着完全相同的分布,我们叫它半监督学习设置。现在我们来解释一下这种差别。
+
-
'''[一审]'''
 
-
有两种常见的无监督特征学习方式,区别在于你有什么样的无类标数据。自学习(self-taught learning)是其中一般的、强大的学习方式,它不要求无类标数据<math>x_u</math>和带类标数据<math>x_l</math>来自同样的分布。另外一种带限制性的方式也被称为半监督学习,它要求<math>x_u</math>和<math>x_l</math>服从同样的分布。下面通过例子解释二者的区别。
 
-
 
+
相反,如果有大量的未标注图像数据,要么是汽车图像,要么是摩托车图像,仅仅是缺失了类标号(没有标注每张图片到底是汽车还是摩托车)。也可以用这些未标注数据来学习特征。这种方式,即要求未标注样本和带标注样本服从相同的分布,有时候被称为半监督学习。在实践中,常常无法找到满足这种要求的未标注数据(到哪里找到一个每张图像不是汽车就是摩托车,只是丢失了类标号的图像数据库?)因此,自学习在无标注数据集的特征学习中应用更广。
-
'''[原文]'''
+
-
Suppose your goal is a computer vision task where you'd like
+
-
to distinguish between images of cars and images of motorcycles; so, each labeled
+
-
example in your training set is either an image of a car or an image of a motorcycle. 
+
-
Where can we get lots of unlabeled data?  The easiest way would be to obtain some
+
-
random collection of images, perhaps downloaded off the internet.  We could then
+
-
train the autoencoder on this large collection of images, and obtain useful features
+
-
from them.  Because here the unlabeled data is drawn from a different distribution
+
-
than the labeled data (i.e., perhaps some of our unlabeled images may contain
+
-
cars/motorcycles, but not every image downloaded is either a car or a motorcycle), we
+
-
call this self-taught learning.
+
-
 
+
-
'''[初译]'''
+
-
假设你的目标是区分汽车或者摩托车图像。即,训练集的每个被标记样本要么是汽车的图像,要么是摩托车的图像。哪里可以得到这么多未被标记数据?最简便的方法是获取一些图像的随机集合,或者从互联网下载一些。接着可以将这些大量的图像集合用于自编码神经网络训练,以获得有用的特征。因为未标记的数据与标注过的数据有着不同的分布(未标记的图像可能包含汽车/摩托车,下载的每张图像都是汽车或者摩托车),所以,称其自我学习算法。
+
-
 
+
-
'''[一审]'''
+
-
假定有一个计算机视觉方面的任务,目标是区分汽车和摩托车图像;也即训练样本里面要么是汽车的图像,要么是摩托车的图像。哪里获取大量的无类标数据呢?最简单的方式可能是到互联网上下载一些随机的图像数据集,这这些数据上训练出一个稀疏自编码神经网络,从中得到有用的特征。这个例子里,无类标数据完全来自于一个和带类标数据不同的分布(无类标数据集中,或许其中一些图像包含汽车或者摩托车,但是不是所有的图像都如此)。这种情形被称为自学习。
+
-
 
+
-
 
+
-
'''[原文]'''
+
-
In contrast, if we happen to have lots of unlabeled images lying around
+
-
that are all images of ''either'' a car or a motorcycle, but where the data
+
-
is just missing its label (so you don't know which ones are cars, and which
+
-
ones are motorcycles), then we could use this form of unlabeled data to
+
-
learn the features.  This setting---where each unlabeled example is drawn from the same
+
-
distribution as your labeled examples---is sometimes called the semi-supervised
+
-
setting.  In practice, we often do not have this sort of unlabeled data (where would you
+
-
get a database of images where every image is either a car or a motorcycle, but
+
-
just missing its label?), and so in the context of learning features from unlabeled
+
-
data, the self-taught learning setting is more broadly applicable.
+
-
 
+
-
'''[初译]'''
+
-
相反的,如果恰好有成千上万张图像,它们要么是汽车,要么是摩托车,只是它们缺少标记(你不知道那张是汽车,哪张是摩托车),我们可以用这种未标记的数据来学习特征。对于这些设置--每个未被标记的样例与你标记过的样例有着相同的分布--有时候称它是半监督学习。在实践中,我们常常没有这种未标记数据(你可以得到这样的图像数据库,其中每张图像是汽车或者摩托车,只是丢失了标记)。综上,在针对未标记数据的特征学习上,自我学习设置能够被更广泛的使用。
+
-
 
+
-
'''[一审]'''
+
-
相反,如果有大量的无类标图像数据,要么是汽车图像,要么是摩托车图像,仅仅是缺失了类标(没有标注每张图片到底是汽车还是摩托车)。也可以用这些无类标数据来学习特征。这种方式,即要求无类标样本和带类标样本服从相同的分布,有时候被称为半监督学习。在实践中,常常无法找到满足这种要求的无类标数据(到哪里找到一个每张图像不是汽车就是摩托车,只是丢失了类标的图像数据库?)因此,自学习被广泛的应用于从无类标数据集中学习特征。
+
{{STL}}
{{STL}}

Revision as of 09:15, 16 March 2013

Personal tools