自我学习

From Ufldl

Jump to: navigation, search
(On pre-processing the data)
(Overview)
Line 4: Line 4:
'''[一审]''':自学习  (by '''@晓风_机器学习''')
'''[一审]''':自学习  (by '''@晓风_机器学习''')
-
== Overview ==
+
==综述==
-
'''[初译]''':综述
+
-
'''[一审]''':综述
+
-
'''[原文]'''
+
如果已经有一个足够强大的机器学习算法,为了获得更好的性能,最靠谱的方法之一是给这个算法以更多的数据。机器学习界甚至有个说法:“有时候胜出者并非有最好的算法,而是有更多的数据。”
-
Assuming that we have a sufficiently powerful learning algorithm, one of the most reliable ways to get better performance is to give the algorithm more data. This has led to the that aphorism that in machine learning, "sometimes it's not who has the best algorithm that wins; it's who has the most data."
+
-
'''[初译]'''
 
-
假如我们拥有足够强大的机器学习算法,那么,为了获得更好的性能,最靠谱的一种方法就是给予学习算法更多数据。机器学习界有句格言:有时候效果最好的,不是最优的算法,而是那些拥有最多数据的。
 
-
'''[一审]'''
+
人们总是可以尝试获取更多的已标注数据,但是这样做成本往往很高。例如研究人员已经花了相当的精力在使用类似AMT(Amazon Mechanical Turk)这样的工具上,以期获取更大的训练数据集。相比大量研究人员通过手工方式构建特征,用众包的方式让多人手工标数据是一个进步,但是我们可以做得更好。具体的说,如果算法能够从未标注数据中学习,那么我们就可以轻易地获取大量无标注数据,并从中学习。自学习和无监督特征学习就是这种的算法。尽管一个单一的未标注样本蕴含的信息比一个已标注的样本要少,但是如果能获取大量无标注数据(比如从互联网上下载随机的、无标注的图像、音频剪辑或者是文本),并且算法能够有效的利用它们,那么相比大规模的手工构建特征和标数据,算法将会取得更好的性能。
-
如果已经有一个足够强大的机器学习算法,为了获得更好的性能,最靠谱的方法之一是给这个算法以更多的数据。机器学习界甚至有个说法:“胜出的往往不是最好的算法,而是尽可能多的数据。”
+
-
'''[原文]'''
+
在自学习和无监督特征学习问题上,可以给算法以大量的未标注数据,学习出较好的特征描述。在尝试解决一个具体的分类问题时,可以基于这些学习出的特征描述和任意的(可能比较少的)已标注数据,使用有监督学习方法完成分类。
-
One can always try to get more labeled data, but this can be expensive. In particular, researchers have already gone to extraordinary lengths to use tools such as AMT (Amazon Mechanical Turk) to get large training sets. While having large numbers of people hand-label lots of data is probably a step forward compared to having large numbers of researchers hand-engineer features, it would be nice to do better. In particular, the promise of self-taught learning and unsupervised feature learning is that if we can get our algorithms to learn from unlabeled data, then we can easily obtain and learn from massive amounts of it. Even though a single unlabeled example is less informative than a single labeled example, if we can get tons of the former---for example, by downloading random unlabeled images/audio clips/text documents off the internet---and if our algorithms can exploit this unlabeled data effectively, then we might be able to achieve better performance than the massive hand-engineering and massive hand-labeling approaches.
+
-
'''[初译]'''
 
-
有人总是尝试获得更多标记过的数据,这样做耗费巨大。典型的一种场景是,为了获得大量的训练集,学者们花费很长时间来使用诸如AMT(Amazon Mechanical Turk)之类的工具。相比起human hand-engineering,虽然使用大量人力手工标注数据已经是一个进步,但是我们可以做的更好。自我学习以及非监督特征学习能够做到:如果我们有能够从未被标记数据中学习的算法,那么就可以用来轻易地获取数据,并且从这些数据中进行大量学习。即便针对比起被标记的样本信息量小很多的未被标记样本,,这样做也能行的通。如果我们能够获取一系列未被标记样本(比如,通过从互联网随机下载未被标记的图像/音频片段/文本文件),同时使用的算法能够有效地挖掘这些未被标注数据,那么比起大量的human hand-engineering方法以及手工标注的方法,将获得更好的性能。
 
-
 
-
'''[一审]'''
 
-
在解决很多问题上,总是可以尝试获取更多的带类标数据,但是成本往往很高。典型地,研究人员已经花了相当的精力在使用类似AMT(Amazon Mechanical Turk,一个基于互联网的众包市场)这样的工具上,以期获取更大的训练数据集。相比大量的研究人员手工构建特征,用众包的方式让多人手工标数据是一个进步,而且期望着可以做的更好。特别是自学习和无监督特征学习,预示着如果算法能够从无类标数据中进行学习,就可以轻而易举的获取大量这样的数据供算法学习。尽管一个单一的无类标数据样例蕴含的信息比一个带类标的数据样例要少,但是如果能大量的获取无类标数据(比如从互联网上下载随机的、无类标的图像、音频剪辑或者是文本),并且算法能够有效的利用它们,相比大规模的手工构建特征和标数据,最终将会有更好的性能。
 
-
 
-
 
-
'''[原文]'''
 
-
In Self-taught learning and Unsupervised feature learning, we will give our algorithms a large amount of unlabeled data with which to learn a good feature representation of the input. If we are trying to solve a specific classification task, then we take this learned feature representation and whatever (perhaps small amount of) labeled data we have for that classification task, and apply supervised learning on that labeled data to solve the classification task.'''
 
-
 
-
'''[初译]'''
 
-
在自我学习和非监督特征学习领域,我们给予算法大量未标注的数据,通过它们来学习更好的特征重现形式。在尝试解决具体的分类任务的时候,通过这些学习来的特征重现形式,同时,应用监督学习方法于任意数量(可能是很少量)的被标注数据,两者一起来完成分类任务。
 
-
 
-
'''[一审]'''
 
-
在自学习和无监督特征学习问题上,可以给算法以大量的无类标数据,学习出较好的特征描述。如果面对一个具体的分类问题,就可以基于这些学习出的特征描述和任意的(可能比较少的)带类标数据,使用有监督学习方法解决。
 
-
 
-
 
-
'''[原文]'''
 
-
These ideas probably have the most powerful effects in problems where we have a lot of unlabeled data, and a smaller amount of labeled data. However, they typically give good results even if we have only labeled data (in which case we usually perform the feature learning step using the labeled data, but ignoring the labels).
 
-
 
-
'''[初译]'''
 
-
以上想法对于以下场景最有效--同时拥有大量未被标记数据和小部分已标记数据。即便是,我们只拥有已标记数据(在这种情况下,我们常常在特征学习阶段使用被标注数据,但是忽略标记,仅关注数据本身),以上想法也能给出很好的结果。
 
-
 
-
'''[一审]'''
 
-
在一些拥有大量无类标数据和少量的带类标数据的场景中,甚至是只有带类标数据的场景中(丢掉类标进行特征学习),以上想法都可能十分凑效。
 
 +
在一些拥有大量未标注数据和少量的已标注数据的场景中,上述思想可能是最有效的。即使在只有已标注数据的情况下(这时我们通常忽略训练数据的类标号进行特征学习),以上想法也能得到很好的结果。
== Learning features ==
== Learning features ==

Revision as of 07:35, 16 March 2013

Personal tools