梯度检验与高级优化

From Ufldl

Jump to: navigation, search
Line 7: Line 7:
Wiki上传者:王方,email:fangkey@gmail.com,新浪微博:@GuitarFang
Wiki上传者:王方,email:fangkey@gmail.com,新浪微博:@GuitarFang
 +
众所周知,反向传播算法很难调试到正确结果,尤其是当实现程序存在很多难于发现的bug时。举例来说,索引的缺位错误(off-by-one error)会导致只有部分层的权重得到训练,再比如忘记计算偏置项,这些错误会使你得到一个看似十分合理的结果(但实际上比正确代码的结果要差)。因此,但从计算结果上来看,我们很难发现代码中有什么东西遗漏了。本节中,我们将介绍一种对导数进行数值检测的方法,以确定导数的运算代码是正确的。使用本节所述导数检测的方法,将非常有助于你提升写正确代码的信心。
 +
 +
缺位错误(Off-by-one error)举例说明:比如for 循环中循环m次,则应该是for(i=1; i<=m ;i++),但有时程序员疏忽,会写成for(i=1;i<m;i++),这就是缺位错误。
 +
 +
 +
假设我们想要最小化以<math>\textstyle \theta</math>为自变量的目标函数<math>\textstyle J(\theta)</math>。假设<math>\textstyle J : \Re \mapsto \Re</math>,则<math>\textstyle \theta \in \Re</math>。在一维的情况下,一次迭代的梯度下降公式是
 +
:<math>\begin{align}
 +
\theta := \theta - \alpha \frac{d}{d\theta}J(\theta).
 +
\end{align}</math>
 +
 +
 +
再假设我们已经用代码实现了计算<math>\textstyle \frac{d}{d\theta}J(\theta)</math>的函数<math>\textstyle g(\theta)</math>,接着我们根据<math>\textstyle \theta := \theta - \alpha g(\theta)</math>来实现梯度下降算法。那么我们如何检验<math>\textstyle g</math>的实现是否正确呢?
 +
 +
回忆导数的数学定义:
 +
:<math>\begin{align}
 +
\frac{d}{d\theta}J(\theta) = \lim_{\epsilon \rightarrow 0}
 +
\frac{J(\theta+ \epsilon) - J(\theta-\epsilon)}{2 \epsilon}.
 +
\end{align}</math>
 +
那么对于任何<math>\textstyle \theta</math>值,我们都可以对此导数用:
 +
:<math>\begin{align}
 +
\frac{J(\theta+{\rm EPSILON}) - J(\theta-{\rm EPSILON})}{2 \times {\rm EPSILON}}
 +
\end{align}</math>
 +
近似。
 +
 +
 +
实际应用中,我们常将<math>{\rm EPSILON}</math>设为一个很小的常量,比如在<math>\textstyle 10^{-4}</math>数量级(虽然<math>{\rm EPSILON}</math>的取值范围可以很大,但是我们不会将它设得太小,比如<math>\textstyle 10^{-20}</math>,因为那将导致数值舍入误差。)
 +
 +
 +
因此给定一个被认为能计算<math>\textstyle \frac{d}{d\theta}J(\theta)</math>的函数<math>\textstyle g(\theta)</math>,现在我们用数值检查公式
 +
:<math>\begin{align}
 +
g(\theta) \approx
 +
\frac{J(\theta+{\rm EPSILON}) - J(\theta-{\rm EPSILON})}{2 \times {\rm EPSILON}}.
 +
\end{align}</math>
 +
是否成立来验证函数的正确性。
 +
 +
 +
上式两端值的接近程度取决于<math>\textstyle J</math>的具体形式。但是在假定<math>\textstyle {\rm EPSILON} = 10^{-4}</math>的情况下,你通常会发现上式左右两边的数值至少会精确到4位有效数字(通常会更多)。
 +
 +
 +
现在,考虑<math>\textstyle \theta \in \Re^n</math>是一个向量而非单个实数(那么就有<math>\textstyle n</math>个参数要学习),并且<math>\textstyle J: \Re^n \mapsto \Re</math>。在神经网络的例子里我们使用<math>\textstyle J(W,b)</math>,可以想象把参数<math>\textstyle W,b</math>组合扩展到一个长向量<math>\textstyle \theta</math>。现在我们将求导检验方法推广到一般化,即<math>\textstyle \theta</math>可能是一个向量的情况。
 +
 +
假设我们有一个用于计算<math>\textstyle \frac{\partial}{\partial \theta_i} J(\theta)</math>的函数<math>\textstyle g_i(\theta)</math>;我们想要检验<math>\textstyle g_i</math>是否输出正确的求导结果。定义<math>\textstyle \theta^{(i+)} = \theta +
 +
{\rm EPSILON} \times \vec{e}_i</math>,其中
 +
:<math>\begin{align}
 +
\vec{e}_i = \begin{bmatrix}0 \\ 0 \\ \vdots \\ 1 \\ \vdots \\ 0\end{bmatrix}
 +
\end{align}</math>
 +
是第<math>\textstyle i</math>个基向量(维度和<math>\textstyle \theta</math>相同,在第<math>\textstyle i</math>行是“1”而其他行是“0”)。所以,<math>\textstyle \theta^{(i+)}</math>和<math>\textstyle \theta</math>几乎相同,除了第<math>\textstyle i</math>行元素增加了<math>{\rm EPSILON}</math>。类似地,<math>\textstyle \theta^{(i-)} = \theta - {\rm EPSILON} \times \vec{e}_i</math>的第<math>\textstyle i</math>行减小了<math>{\rm EPSILON}</math>。然后我们可以对每个 <math>\textstyle i</math> 检查下式是否成立,进而验证<math>\textstyle g_i(\theta)</math>的正确性:
 +
:<math>\begin{align}
 +
g_i(\theta) \approx
 +
\frac{J(\theta^{(i+)}) - J(\theta^{(i-)})}{2 \times {\rm EPSILON}}.
 +
\end{align}</math>
 +
 +
 +
当用反射传播算法求解神经网络时,正确算法实现会得到:
 +
:<math>\begin{align}
 +
\nabla_{W^{(l)}} J(W,b) &= \left( \frac{1}{m} \Delta W^{(l)} \right) + \lambda W^{(l)} \\
 +
\nabla_{b^{(l)}} J(W,b) &= \frac{1}{m} \Delta b^{(l)}.
 +
\end{align}</math>
 +
 +
 +
迄今为止,我们的讨论都集中在使用梯度下降法来最小化 <math>\textstyle J(\theta)</math>。如果你已经实现了一个计算<math>\textstyle J(\theta)</math>和<math>\textstyle \nabla_\theta J(\theta)</math>的函数,那么其实还有更精妙的算法来最小化<math>\textstyle J(\theta)</math>。举例来说,可以想象这样一个算法:它使用梯度下降,并能够自动调整学习速率<math>\textstyle \alpha</math>,以得到合适的步长值,最终使<math>\textstyle \theta</math>能够快速收敛到一个局部最优解。还有更妙的算法:比如可以寻找一个Hessian矩阵的近似,得到最佳步长值,使用该步长值能够更快地收敛到局部最优(和牛顿方法类似)。此类算法的详细讨论已超出了这份讲义的范围,但是L-BFGS算法我们以后会有论述(另一个例子是共轭梯度算法)。你将在编程练习里使用这些算法中的一个。使用这些高级优化算法时,用户需要提供关键的函数:即对于任一个<math>\textstyle \theta</math>,需要用户计算出<math>\textstyle J(\theta)</math>和<math>\textstyle \nabla_\theta J(\theta)</math>。之后这些优化算法会自动调整学习速率/步长值 <math>\textstyle \alpha</math>的大小(并计算它自己的近似Hessian矩阵等等)来自动寻找<math>\textstyle J(\theta)</math>最小化时的<math>\textstyle \theta</math>值。诸如L-BFGS和共轭梯度的算法通常比梯度下降快很多。
 +
 +
{{Sparse_Autoencoder}}
:【原文】:
:【原文】:

Revision as of 13:18, 18 March 2013

Personal tools