池化 - Ufldl

Revision as of 13:06, 19 March 2013 (view source)

Kandeng (Talk | contribs)

← Older edit

Latest revision as of 05:21, 8 April 2013 (view source)

Wikiroot (Talk | contribs)

Line 1:

-

~~= 池化 =~~

-

== 池化: 概述 ==

-

在通过卷积获得了特征(features)之后，下一步我们希望利用这些特征去做分类。理论上讲，人们可以用所有提取得到的特征去训练分类器，例如softmax分类器，但这样做面临计算量的挑战。例如：对于一个96X96像素的图像，假设我们已经学习得到了400个定义在8X8输入上的特征，每一个特征和图像卷积都会得到一个(96 − 8 + 1) * (96 − 8 + 1) = ~~7921维的卷积特征，由于有400个特征，所以每个样例~~(example)~~都会得到一个892~~ * 400 = 3,168,~~400维的卷积特征向量。学习一个拥有超过3百万特征输入的分类器十分不便，并且容易出现过拟合~~(over-fitting)。

+

在通过卷积获得了特征 (features) 之后，下一步我们希望利用这些特征去做分类。理论上讲，人们可以用所有提取得到的特征去训练分类器，例如 softmax 分类器，但这样做面临计算量的挑战。例如：对于一个 96X96 像素的图像，假设我们已经学习得到了400个定义在8X8输入上的特征，每一个特征和图像卷积都会得到一个 <math>(96-8+1)*(96-8+1)=7921</math> 维的卷积特征，由于有 400 个特征，所以每个样例 (example) 都会得到一个 <math>89^2 * 400 = 3,168,400</math> 维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便，并且容易出现过拟合 (over-fitting)。

-

为了解决这个问题，首先回忆一下，我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度(相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化(pooling)，有时也称为平均池化或者最大池化(取决于计算池化的方法)。

+

为了解决这个问题，首先回忆一下，我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值 (或最大值)。这些概要统计特征不仅具有低得多的维度 (相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化 (pooling)，有时也称为平均池化或者最大池化 (取决于计算池化的方法)。

下图显示池化如何应用于一个图像的四块不重合区域。

-

[[File:Pooling_schematic.gif]]

+

== 池化的不变性 ==

-

如果人们选择图像中的连续范围作为池化区域，并且只是池化相同(重复)的隐藏单元产生的特征，那么，这些池化单元就具有平移不变性(translation invariant)。这就意味着即使图像经历了一个小的平移之后，依然会产生相同的(池化的)特征。在很多任务中(例如物体检测、声音识别)，我们都更希望得到具有平移不变性的特征，因为即使图像经过了平移，样例(图像)的标记仍然保持不变。例如，如果你处理一个MNIST数据集的数字，把它向左侧或右侧平移，那么不论最终的位置在哪里，你都会期望你的分类器仍然能够精确地将其分类为相同的数字。

+

如果人们选择图像中的连续范围作为池化区域，并且只是池化相同(重复)的隐藏单元产生的特征，那么，这些池化单元就具有平移不变性 (translation invariant)。这就意味着即使图像经历了一个小的平移之后，依然会产生相同的 (池化的) 特征。在很多任务中 (例如物体检测、声音识别)，我们都更希望得到具有平移不变性的特征，因为即使图像经过了平移，样例(图像)的标记仍然保持不变。例如，如果你处理一个MNIST数据集的数字，把它向左侧或右侧平移，那么不论最终的位置在哪里，你都会期望你的分类器仍然能够精确地将其分类为相同的数字。

-

(*~~MNIST是一个手写数字库识别库~~: http://yann.lecun.com/exdb/mnist/)

+

(*MNIST 是一个手写数字库识别库: http://yann.lecun.com/exdb/mnist/)

Line 25:

Line 24:

-

== ~~中英对照~~ ==

+

==中英文对照==

+

:特征 features

+

:样例 example

+

:过拟合 over-fitting

+

:平移不变性 translation invariant

+

:池化 pooling

+

:提取 extract

+

:物体检测 object detection

-

~~特征(features)~~

-

~~样例(example)~~

+

==中文译者==

-

~~过拟合~~(~~over-fitting~~)

+

陈玉栓 (chris_chen_cys@hotmail.com) ，刘鸿鹏飞（just.dark@foxmail.com），邓亚峰（dengyafeng@gmail.com）, 晓风（xiaofeng.zhb@alibaba-inc.com）

-

~~平移不变性(translation invariant)~~

-

~~池化(pooling)~~

+

-

~~提取(extract)~~

-

~~物体检测(object detection)~~

+

池化

From Ufldl

Latest revision as of 05:21, 8 April 2013

Views

Personal tools

ufldl resources

wiki

Search

Toolbox

@@ Line 1: / Line 1: @@
-= 池化 =
 == 池化: 概述 ==
-在通过卷积获得了特征(features)之后，下一步我们希望利用这些特征去做分类。理论上讲，人们可以用所有提取得到的特征去训练分类器，例如softmax分类器，但这样做面临计算量的挑战。例如：对于一个96X96像素的图像，假设我们已经学习得到了400个定义在8X8输入上的特征，每一个特征和图像卷积都会得到一个(96 − 8 + 1) * (96 − 8 + 1) = 7921维的卷积特征，由于有400个特征，所以每个样例(example)都会得到一个892 * 400 = 3,168,400维的卷积特征向量。学习一个拥有超过3百万特征输入的分类器十分不便，并且容易出现过拟合(over-fitting)。
+在通过卷积获得了特征 (features) 之后，下一步我们希望利用这些特征去做分类。理论上讲，人们可以用所有提取得到的特征去训练分类器，例如 softmax 分类器，但这样做面临计算量的挑战。例如：对于一个 96X96 像素的图像，假设我们已经学习得到了400个定义在8X8输入上的特征，每一个特征和图像卷积都会得到一个 <math>(96-8+1)*(96-8+1)=7921</math> 维的卷积特征，由于有 400 个特征，所以每个样例 (example) 都会得到一个 <math>89^2 * 400 = 3,168,400</math> 维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便，并且容易出现过拟合 (over-fitting)。
-为了解决这个问题，首先回忆一下，我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度(相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化(pooling)，有时也称为平均池化或者最大池化(取决于计算池化的方法)。
+为了解决这个问题，首先回忆一下，我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值 (或最大值)。这些概要统计特征不仅具有低得多的维度 (相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化 (pooling)，有时也称为平均池化或者最大池化 (取决于计算池化的方法)。
 下图显示池化如何应用于一个图像的四块不重合区域。
 [[File:Pooling_schematic.gif]]
 == 池化的不变性 ==
-如果人们选择图像中的连续范围作为池化区域，并且只是池化相同(重复)的隐藏单元产生的特征，那么，这些池化单元就具有平移不变性(translation invariant)。这就意味着即使图像经历了一个小的平移之后，依然会产生相同的(池化的)特征。在很多任务中(例如物体检测、声音识别)，我们都更希望得到具有平移不变性的特征，因为即使图像经过了平移，样例(图像)的标记仍然保持不变。例如，如果你处理一个MNIST数据集的数字，把它向左侧或右侧平移，那么不论最终的位置在哪里，你都会期望你的分类器仍然能够精确地将其分类为相同的数字。
+如果人们选择图像中的连续范围作为池化区域，并且只是池化相同(重复)的隐藏单元产生的特征，那么，这些池化单元就具有平移不变性 (translation invariant)。这就意味着即使图像经历了一个小的平移之后，依然会产生相同的 (池化的) 特征。在很多任务中 (例如物体检测、声音识别)，我们都更希望得到具有平移不变性的特征，因为即使图像经过了平移，样例(图像)的标记仍然保持不变。例如，如果你处理一个MNIST数据集的数字，把它向左侧或右侧平移，那么不论最终的位置在哪里，你都会期望你的分类器仍然能够精确地将其分类为相同的数字。
-(*MNIST是一个手写数字库识别库: http://yann.lecun.com/exdb/mnist/)
+(*MNIST 是一个手写数字库识别库: http://yann.lecun.com/exdb/mnist/)
@@ Line 25: / Line 24: @@
-== 中英对照 ==
+==中英文对照==
+:特征  features
+:样例  example
+:过拟合  over-fitting
+:平移不变性   translation invariant
+:池化   pooling
+:提取    extract
+:物体检测   object detection
-特征(features)
-样例(example)
+==中文译者==
-过拟合(over-fitting)
+陈玉栓 (chris_chen_cys@hotmail.com) ， 刘鸿鹏飞（just.dark@foxmail.com）， 邓亚峰（dengyafeng@gmail.com）,   晓风（xiaofeng.zhb@alibaba-inc.com）
-平移不变性(translation invariant)
-池化(pooling)
+{{处理大型图像}}
-提取(extract)
-物体检测(object detection)
+{{Languages|Pooling|English}}