池化

From Ufldl

Jump to: navigation, search
 
Line 1: Line 1:
-
Pooling
+
== 池化: 概述 ==
-
Pooling: Overview
+
-
-----------------------------------------------------------------------------
+
-
After obtaining features using convolution, we would next like to use them for classification. In theory, one could use all the extracted features with a classifier such as a softmax classifier, but this can be computationally challenging. Consider for instance images of size 96x96 pixels, and suppose we have learned 400 features over 8x8 inputs. Each convolution results in an output of size (96 − 8 + 1) * (96 − 8 + 1) = 7921, and since we have 400 features, this results in a vector of 892 * 400 = 3,168,400 features per example. Learning a classifier with inputs having 3+ million features can be unwieldy, and can also be prone to over-fitting.
+
-
【初译】:
+
在通过卷积获得了特征 (features) 之后,下一步我们希望利用这些特征去做分类。理论上讲,人们可以用所有提取得到的特征去训练分类器,例如 softmax 分类器,但这样做面临计算量的挑战。例如:对于一个 96X96 像素的图像,假设我们已经学习得到了400个定义在8X8输入上的特征,每一个特征和图像卷积都会得到一个 <math>(96-8+1)*(96-8+1)=7921</math> 维的卷积特征,由于有 400 个特征,所以每个样例 (example) 都会得到一个 <math>89^2 * 400 = 3,168,400</math> 维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便,并且容易出现过拟合 (over-fitting)。
-
Pooling: 概述
+
-
在通过卷积获得了特征(features)之后,下一步我们希望利用这些特征去做分类。理论上讲,人们可以把所有解析出来的特征关联到一个分类方法,例如softmax分类方法,但计算起来仍然是极富挑战性的。例如:对于一个96X96像素的图像,假设我们已经通过8X8个输入学习得到了400个特征。而每一个卷积都会得到一个(96 8 + 1) * (96 8 + 1) = 7921的结果集,由于已经得到了400个features,所以对于每个样例(example)结果集的大小就将达到892 * 400 = 3,168,400 个特征。学习一个拥有超过3百万特征的输入的分类方法将会是相当不便的,并且极易出现过度匹配(over-fitting).
+
-
【一审】:
 
-
池化: 概述
 
-
-----------------------------------------------------------------------------
 
-
在通过卷积获得了特征(features)之后,下一步我们希望利用这些特征去做分类。理论上讲,人们可以把所有解析出来的特征关联到一个分类器,例如softmax分类器,但计算量非常大。例如:对于一个96X96像素的图像,假设我们已经通过8X8个输入学习得到了400个特征。而每一个卷积都会得到一个(96 − 8 + 1) * (96 − 8 + 1) = 7921的结果集,由于已经得到了400个特征,所以对于每个样例(example)结果集的大小就将达到892 * 400 = 3,168,400 个特征。这样学习一个拥有超过3百万特征的输入的分类器是相当不明智的,并且极易出现过度拟合(over-fitting).
 
-
【二审】:
+
为了解决这个问题,首先回忆一下,我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性,这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此,为了描述大的图像,一个很自然的想法就是对不同位置的特征进行聚合统计,例如,人们可以计算图像一个区域上的某个特定特征的平均值 (或最大值)。这些概要统计特征不仅具有低得多的维度 (相比使用所有提取得到的特征),同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化 (pooling),有时也称为平均池化或者最大池化 (取决于计算池化的方法)。
-
池化: 概述
+
-
-----------------------------------------------------------------------------
+
-
在通过卷积获得了特征(features)之后,下一步我们希望利用这些特征去做分类。理论上讲,人们可以用所有提取得到的特征去训练分类器,例如softmax分类器,但这样做面临计算量的挑战。例如:对于一个96X96像素的图像,假设我们已经学习得到了400个定义在8X8输入上的特征,每一个特征和图像卷积都会得到一个(96 − 8 + 1) * (96 − 8 + 1) = 7921维的卷积特征,由于有400个特征,所以每个样例(example)都会得到一个892 * 400 = 3,168,400维的卷积特征向量。学习一个拥有超过3百万特征输入的分类器十分不便,并且容易出现过拟合(over-fitting)。
+
-
-----------------------------------------------------------------------------
+
下图显示池化如何应用于一个图像的四块不重合区域。
-
To address this, first recall that we decided to obtain convolved features because images have the "stationarity" property, which implies that features that are useful in one region are also likely to be useful for other regions. Thus, to describe a large image, one natural approach is to aggregate statistics of these features at various locations. For example, one could compute the mean (or max) value of a particular feature over a region of the image. These summary statistics are much lower in dimension (compared to using all of the extracted features) and can also improve results (less over-fitting). We aggregation operation is called this operation pooling, or sometimes mean pooling or max pooling (depending on the pooling operation applied).
+
 +
[[File:Pooling_schematic.gif]]
-
【初译】:
 
-
为了解决这个问题,首先回忆一下,我们之所以决定获取卷积后的特征是因为图像具有一种“静态性”的属性,这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此,为了描述一个大的图像,一个很自然的想法就是把在多个位置都适用的特征做一次聚合统计。例如,人们可以计算图像的一个区域上某个特定特征的平均值(或最大值),这些总结性的统计的就会使特征的数目大大降低(对比于适用所有的导出特征)。这种聚合的操作就叫做汇聚(pooling),有时也成为平均汇聚或者最大汇聚(取决于计算汇聚的方法)
 
-
【一审】:
+
== 池化的不变性 ==
-
为了解决这个问题,首先回忆一下,我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性,这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此,为了描述大的图像,一个很自然的想法就是对在多个位置都适用的特征做一次聚合统计。例如,人们可以计算图像一个区域上的某个特定特征的平均值(或最大值),这些总结性的统计数据的维度相对较低(比之于使用所有的导出特征)。这种聚合的操作就叫做池化(pooling),有时也称为平均池化或者最大池化(取决于计算池化的方法)
+
-
【二审】:
+
如果人们选择图像中的连续范围作为池化区域,并且只是池化相同(重复)的隐藏单元产生的特征,那么,这些池化单元就具有平移不变性 (translation invariant)。这就意味着即使图像经历了一个小的平移之后,依然会产生相同的 (池化的) 特征。在很多任务中 (例如物体检测、声音识别),我们都更希望得到具有平移不变性的特征,因为即使图像经过了平移,样例(图像)的标记仍然保持不变。例如,如果你处理一个MNIST数据集的数字,把它向左侧或右侧平移,那么不论最终的位置在哪里,你都会期望你的分类器仍然能够精确地将其分类为相同的数字。
-
为了解决这个问题,首先回忆一下,我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性,这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此,为了描述大的图像,一个很自然的想法就是对不同位置的特征进行聚合统计,例如,人们可以计算图像一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度(对比于使用所有提取得到的特征),同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化(pooling),有时也称为平均池化或者最大池化(取决于计算池化的方法)
+
-
The following image shows how pooling is done over 4 non-overlapping regions of the image.  
+
(*MNIST 是一个手写数字库识别库: http://yann.lecun.com/exdb/mnist/)
-
【初译】:
 
-
下图显示汇聚如何应用于一个图像的四块不重合区域
 
-
【一审】:
+
== 形式化描述 ==
-
下图显示池化如何应用于一个图像的四块不重合区域
+
-
【二审】:
+
形式上,在获取到我们前面讨论过的卷积特征后,我们要确定池化区域的大小(假定为<math>m \times n</math>),来池化我们的卷积特征。那么,我们把卷积特征划分到数个大小为 <math>m \times n</math>的不相交区域上,然后用这些区域的平均(或最大)特征来获取池化后的卷积特征。这些池化后的特征便可以用来做分类。
-
下图显示池化如何应用于一个图像的四块不重合区域。
+
 
 +
 
 +
==中英文对照==
-
(图片地址:是动态图http://deeplearning.stanford.edu/wiki/images/0/08/Pooling_schematic.gif)
+
:特征  features
 +
:样例  example
-
Pooling for Invariance
+
:过拟合  over-fitting
-
-----------------------------------------------------------------------------
+
-
If one chooses the pooling regions to be contiguous areas in the image and only pools features generated from the same (replicated) hidden units. Then, these pooling units will then be translation invariant. This means that the same (pooled) feature will be active even when the image undergoes (small) translations. Translation-invariant features are often desirable; in many tasks (e.g., object detection, audio recognition), the label of the example (image) is the same even when the image is translated. For example, if you were to take an MNIST digit and translate it left or right, you would want your classifier to still accurately classify it as the same digit regardless of its final position.
+
-
【初译】:
+
:平移不变性  translation invariant
-
不变式的汇聚
+
-
如果人们选择图像中的连续范围作为汇聚区域,并且只是汇聚相同(重复)的隐藏单元产生的特征。那么,这些汇聚单元就成为转换不变式。这就意味着即使图像经理了一个小的转换之后,相同的(汇聚的)特征仍然是有效的。转换不变式这种特征通常在许多任务中(例如:对象检测,声音识别)是我们期望得到的,即使在图像做了转换之后,样例(图像)的标记仍然保持不变。例如,如果你取得一个MNIST位置数据并且把它向左侧或右侧转换,那么不论最终的位置在哪里,你可能都会期望你的分类方法仍然能够把它当做相同的位置数据而精确地区分开。
+
-
【一审】:
+
:池化  pooling
-
不变式的池化
+
-
-----------------------------------------------------------------------------
+
-
如果人们选择图像中的连续范围作为池化区域,并且只是池化相同(重复)的隐藏单元产生的特征。那么,这些池化单元就称为平移不变式(translation invariant)。也就意味着即使图像经理了一个小的平移之后,相同的(池化的)特征仍然是有效的。平移不变式这种特征通常在许多任务中(例如:对象检测,声音识别)是我们所期望得到的,即使在图像做了平移之后,样例(图像)的标签仍然保持不变。例如,如果你使用一个MNIST的手写数字的数据,并且把它向左侧或右侧平移,那么不论最终的位置在哪里,你可能都会期望你的分类器仍然能够对其进行正确分类。
+
-
(*MNIST是一个手写数字库识别库: http://yann.lecun.com/exdb/mnist/)
+
-
【二审】:
+
:提取    extract
-
池化的不变性
+
-
-----------------------------------------------------------------------------
+
-
如果人们选择图像中的连续范围作为池化区域,并且只是池化相同(重复)的隐藏单元产生的特征,那么,这些池化单元就具有平移不变性(translation invariant)。这就意味着即使图像经历了一个小的平移之后,依然会产生相同的(池化的)特征。在很多任务中(例如物体检测、声音识别),我们都更希望得到具有平移不变性的特征,因为即使图像经过了平移,样例(图像)的标记仍然保持不变。例如,如果你处理一个MNIST数据集的数字,把它向左侧或右侧平移,那么不论最终的位置在哪里,你都会期望你的分类器仍然能够精确地将其分类为相同的数字。
+
-
(*MNIST是一个手写数字库识别库: http://yann.lecun.com/exdb/mnist/)
+
-
-----------------------------------------------------------------------------
+
:物体检测  object detection
-
Formal description
+
-
Formally, after obtaining our convolved features as described earlier, we decide the size of the region, say  to pool our convolved features over. Then, we divide our convolved features into disjoint  regions, and take the mean (or maximum) feature activation over these regions to obtain the pooled convolved features. These pooled features can then be used for classification.
+
-
-----------------------------------------------------------------------------
+
-
【初译】:
 
-
形式化定义:
 
-
形式上,在获取到我们的前面讨论过的卷积特征后,我们确定区域的大小,假设是大小为 的区域来汇聚我们的卷积特征。那么,我们把卷积特征区分放到 个互不相连的区域,然后取得平均(或最大)的这些区域有效特征来获取汇聚后的卷积特征。这些汇聚的特征即可以用来做分类方法。
 
-
【一审】:
+
==中文译者==
-
形式化描述:
+
-
一般来说,在获取到我们前面讨论过的卷积特征后,我们要确定池化区域的大小,假设选择大小为 的来池化我们的卷积特征。那么,我们把卷积特征区划分为数个大小为 的互不连接的区域,然后取得这些区域的平均(或最大)有效特征来获取池化后的卷积特征。这些池化后的特征即可以用来为分类器所使用。
+
-
【二审】:
+
陈玉栓 (chris_chen_cys@hotmail.com) , 刘鸿鹏飞(just.dark@foxmail.com), 邓亚峰(dengyafeng@gmail.com),  晓风(xiaofeng.zhb@alibaba-inc.com)
-
形式化描述:
+
-
一般来说,在获取到我们前面讨论过的卷积特征后,我们要确定池化区域的大小(假设为 )来池化我们的卷积特征。那么,我们把卷积特征划分到数个大小为 的不相交区域上,然后用这些区域的平均(或最大)特征来获取池化后的卷积特征。这些池化后的特征便可以用来做分类。
+
-
-----------------------------------------------------------------------------
 
-
中英对照:
 
-
【初译】:
+
{{处理大型图像}}
-
+
-
【一审】:
 
-
特征(features)
 
-
样例(example)
 
-
过度拟合(over-fitting)
 
-
平移不变式(translation invariant)
 
-
池化(pooling)
 
-
【二审】:
+
{{Languages|Pooling|English}}
-
特征(features)
+
-
样例(example)
+
-
过拟合(over-fitting)
+
-
平移不变性(translation invariant)
+
-
池化(pooling)
+
-
提取(extract)
+
-
物体检测(object detection)
+

Latest revision as of 05:21, 8 April 2013

Personal tools