Softmax回归

Revision as of 05:54, 16 March 2013 (view source)

Kandeng (Talk | contribs)

(→softmax回归参数化的特性 Properties of softmax regression parameterization)

← Older edit

Revision as of 06:03, 16 March 2013 (view source)

Kandeng (Talk | contribs)

(→简介)

Newer edit →

Line 7:

==简介==

-

在本节中，我们介绍Softmax回归模型，该模型是logistic回归模型在多分类问题上的推广，在多分类问题中，类标签<math>y</math>可以取两个以上的值。 Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的，该问题的目的是辨识10个不同的单个数字。Softmax回归是有监督的，不过后面也会介绍它与深度学习/无监督学习方法的结合。（译者注： MNIST 是一个手写数字识别库，由NYU 的Yann LeCun 等人维护。http://yann.lecun.com/exdb/mnist/ ）

+

在本节中，我们介绍Softmax回归模型，该模型是logistic回归模型在多分类问题上的推广，在多分类问题中，类标签<math>\textstyle y</math>可以取两个以上的值。 Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的，该问题的目的是辨识10个不同的单个数字。Softmax回归是有监督的，不过后面也会介绍它与深度学习/无监督学习方法的结合。（译者注： MNIST 是一个手写数字识别库，由NYU 的Yann LeCun 等人维护。http://yann.lecun.com/exdb/mnist/ ）

-

回想一下在 logistic 回归中，我们的训练集由 <math>m</math>个已标记的样本构成：<math>\{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \}</math> ，其中输入特征<math>x^{(i)} \in \Re^{n+1}</math>。（我们对符号的约定如下：特征向量 <math>x</math> 的维度为<math>n+1</math>，其中<math>x_0 = 1</math>对应截距项。）由于 logistic 回归是针对二分类问题的，因此类标记<math>y^{(i)} \in \{0,1\}</math>。假设函数(hypothesis function)如下：

+

回想一下在 logistic 回归中，我们的训练集由<math>\textstyle m</math>个已标记的样本构成：<math>\{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \}</math> ，其中输入特征<math>x^{(i)} \in \Re^{n+1}</math>。（我们对符号的约定如下：特征向量<math>\textstyle x</math>的维度为<math>\textstyle n+1</math>，其中<math>\textstyle x_0 = 1</math>对应截距项。）由于 logistic 回归是针对二分类问题的，因此类标记<math>y^{(i)} \in \{0,1\}</math>。假设函数(hypothesis function)如下：

<math>\begin{align}

Line 17:

-

我们将训练模型参数<math>\theta</math>，使其能够最小化代价函数：

+

我们将训练模型参数<math>\textstyle \theta</math>，使其能够最小化代价函数：

<math>

Line 26:

-

在 softmax回归中，我们解决的是多分类问题（相对于 logistic 回归解决的二分类问题），类标<math>y</math>可以取<math>k</math>个不同的值（而不是 2 个）。因此，对于训练集<math>\{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \}</math>，我们有<math>y^{(i)} \in \{1, 2, \ldots, k\}</math>。（注意此处的类别下标从 1 开始，而不是 0）。例如，在 MNIST 数字识别任务中，我们有 <math>k=10</math>个不同的类别。

+

在 softmax回归中，我们解决的是多分类问题（相对于 logistic 回归解决的二分类问题），类标<math>\textstyle y</math>可以取<math>\textstyle k</math>个不同的值（而不是 2 个）。因此，对于训练集<math>\{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \}</math>，我们有<math>y^{(i)} \in \{1, 2, \ldots, k\}</math>。（注意此处的类别下标从 1 开始，而不是 0）。例如，在 MNIST 数字识别任务中，我们有<math>\textstyle k=10</math>个不同的类别。

-

对于给定的测试输入<math>x</math>，我们想用假设函数针对每一个类别j估算出概率值<math>p(y=j | x)</math>。也就是说，我们想估计<math>x</math>的每一种分类结果出现的概率。因此，我们的假设函数将要输出一个<math>k</math>维的向量（向量元素的和为1）来表示这<math>k</math>个估计的概率值。具体地说，我们的假设函数<math>h_{\theta}(x)</math>形式如下：

+

对于给定的测试输入<math>\textstyle x</math>，我们想用假设函数针对每一个类别j估算出概率值<math>\textstyle p(y=j | x)</math>。也就是说，我们想估计<math>\textstyle x</math>的每一种分类结果出现的概率。因此，我们的假设函数将要输出一个<math>\textstyle k</math>维的向量（向量元素的和为1）来表示这<math>\textstyle k</math>个估计的概率值。具体地说，我们的假设函数<math>\textstyle h_{\theta}(x)</math>形式如下：

<math>

\begin{align}

Line 54:

-

为了方便起见，我们同样使用符号<math>\theta</math> 来表示全部的模型参数。在实现Softmax回归时，将<math>\theta</math> 用一个<math>k~~</math>-by-<math>~~(n+1)</math>的矩阵来表示会很方便，该矩阵是将<math>\theta_1, \theta_2, \ldots, \theta_k</math> 按行罗列起来得到的，如下所示：

+

为了方便起见，我们同样使用符号<math>\textstyle \theta</math>来表示全部的模型参数。在实现Softmax回归时，将<math>\textstyle \theta</math> 用一个<math>\textstyle k \times(n+1)</math>的矩阵来表示会很方便，该矩阵是将<math>\theta_1, \theta_2, \ldots, \theta_k</math> 按行罗列起来得到的，如下所示：

<math>

Softmax回归

From Ufldl

Revision as of 06:03, 16 March 2013

Views

Personal tools

ufldl resources

wiki

Search

Toolbox

@@ Line 7: / Line 7: @@
 ==简介==
-在本节中，我们介绍Softmax回归模型，该模型是logistic回归模型在多分类问题上的推广，在多分类问题中，类标签<math>y</math>可以取两个以上的值。 Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的，该问题的目的是辨识10个不同的单个数字。Softmax回归是有监督的，不过后面也会介绍它与深度学习/无监督学习方法的结合。（译者注： MNIST 是一个手写数字识别库，由NYU 的Yann LeCun 等人维护。http://yann.lecun.com/exdb/mnist/ ）
+在本节中，我们介绍Softmax回归模型，该模型是logistic回归模型在多分类问题上的推广，在多分类问题中，类标签<math>\textstyle y</math>可以取两个以上的值。 Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的，该问题的目的是辨识10个不同的单个数字。Softmax回归是有监督的，不过后面也会介绍它与深度学习/无监督学习方法的结合。（译者注： MNIST 是一个手写数字识别库，由NYU 的Yann LeCun 等人维护。http://yann.lecun.com/exdb/mnist/ ）
-回想一下在 logistic 回归中，我们的训练集由 <math>m</math>个已标记的样本构成：<math>\{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \}</math> ，其中输入特征<math>x^{(i)} \in \Re^{n+1}</math>。（我们对符号的约定如下：特征向量 <math>x</math> 的维度为<math>n+1</math>，其中<math>x_0 = 1</math>对应截距项 。）由于 logistic 回归是针对二分类问题的，因此类标记<math>y^{(i)} \in \{0,1\}</math>。假设函数(hypothesis function)如下：
+回想一下在 logistic 回归中，我们的训练集由<math>\textstyle m</math>个已标记的样本构成：<math>\{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \}</math> ，其中输入特征<math>x^{(i)} \in \Re^{n+1}</math>。（我们对符号的约定如下：特征向量<math>\textstyle x</math>的维度为<math>\textstyle n+1</math>，其中<math>\textstyle x_0 = 1</math>对应截距项 。）由于 logistic 回归是针对二分类问题的，因此类标记<math>y^{(i)} \in \{0,1\}</math>。假设函数(hypothesis function)如下：
 <math>\begin{align}
@@ Line 17: / Line 17: @@
-我们将训练模型参数<math>\theta</math>，使其能够最小化代价函数 ：
+我们将训练模型参数<math>\textstyle \theta</math>，使其能够最小化代价函数 ：
 <math>
@@ Line 26: / Line 26: @@
-在 softmax回归中，我们解决的是多分类问题（相对于 logistic 回归解决的二分类问题），类标<math>y</math>可以取<math>k</math>个不同的值（而不是 2 个）。因此，对于训练集<math>\{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \}</math>，我们有<math>y^{(i)} \in \{1, 2, \ldots, k\}</math>。（注意此处的类别下标从 1 开始，而不是 0）。例如，在 MNIST 数字识别任务中，我们有 <math>k=10</math>个不同的类别。
+在 softmax回归中，我们解决的是多分类问题（相对于 logistic 回归解决的二分类问题），类标<math>\textstyle y</math>可以取<math>\textstyle k</math>个不同的值（而不是 2 个）。因此，对于训练集<math>\{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \}</math>，我们有<math>y^{(i)} \in \{1, 2, \ldots, k\}</math>。（注意此处的类别下标从 1 开始，而不是 0）。例如，在 MNIST 数字识别任务中，我们有<math>\textstyle k=10</math>个不同的类别。
-对于给定的测试输入<math>x</math>，我们想用假设函数针对每一个类别j估算出概率值<math>p(y=j | x)</math>。也就是说，我们想估计<math>x</math>的每一种分类结果出现的概率。因此，我们的假设函数将要输出一个<math>k</math>维的向量（向量元素的和为1）来表示这<math>k</math>个估计的概率值。 具体地说，我们的假设函数<math>h_{\theta}(x)</math>形式如下：
+对于给定的测试输入<math>\textstyle x</math>，我们想用假设函数针对每一个类别j估算出概率值<math>\textstyle p(y=j | x)</math>。也就是说，我们想估计<math>\textstyle x</math>的每一种分类结果出现的概率。因此，我们的假设函数将要输出一个<math>\textstyle k</math>维的向量（向量元素的和为1）来表示这<math>\textstyle k</math>个估计的概率值。 具体地说，我们的假设函数<math>\textstyle h_{\theta}(x)</math>形式如下：
 <math>
 \begin{align}
@@ Line 54: / Line 54: @@
-为了方便起见，我们同样使用符号<math>\theta</math> 来表示全部的模型参数。在实现Softmax回归时，将<math>\theta</math> 用一个<math>k</math>-by-<math>(n+1)</math>的矩阵来表示会很方便，该矩阵是将<math>\theta_1, \theta_2, \ldots, \theta_k</math> 按行罗列起来得到的，如下所示：
+为了方便起见，我们同样使用符号<math>\textstyle \theta</math>来表示全部的模型参数。在实现Softmax回归时，将<math>\textstyle \theta</math> 用一个<math>\textstyle k \times(n+1)</math>的矩阵来表示会很方便，该矩阵是将<math>\theta_1, \theta_2, \ldots, \theta_k</math> 按行罗列起来得到的，如下所示：
 <math>