稀疏编码自编码表达
From Ufldl
(→中文译者) |
(→稀疏编码) |
||
Line 1: | Line 1: | ||
- | |||
== 稀疏编码 == | == 稀疏编码 == | ||
Line 45: | Line 44: | ||
- | 这一目标函数带来了最后一个问题,即 L1 范数在 0 点处不可微影响了梯度方法的应用。尽管可以通过其他非梯度下降方法避开这一问题,但是本文通过使用近似值“平滑” L1 范数的方法解决此难题。使用 <math>\sqrt{x + \epsilon}</math> 代替 <math>\left| x \right|</math>, 对 L1 范数进行平滑,其中 <math>\epsilon</math> 是“平滑参数”("smoothing parameter")或者“稀疏参数”("sparsity parameter") (如果 <math>\epsilon</math>远大于<math>x</math>, 则 <math>x + \epsilon</math> 的值由 <math>\epsilon</math> 主导,其平方根近似于 )。在下文提及拓扑稀疏编码时,“平滑”会派上用场。 | + | 这一目标函数带来了最后一个问题,即 L1 范数在 0 点处不可微影响了梯度方法的应用。尽管可以通过其他非梯度下降方法避开这一问题,但是本文通过使用近似值“平滑” L1 范数的方法解决此难题。使用 <math>\sqrt{x^2 + \epsilon}</math> 代替 <math>\left| x \right|</math>, 对 L1 范数进行平滑,其中 <math>\epsilon</math> 是“平滑参数”("smoothing parameter")或者“稀疏参数”("sparsity parameter") (如果 <math>\epsilon</math>远大于<math>x</math>, 则 <math>x + \epsilon</math> 的值由 <math>\epsilon</math> 主导,其平方根近似于<math>\epsilon</math>)。在下文提及拓扑稀疏编码时,“平滑”会派上用场。 |
Line 72: | Line 71: | ||
理论上,通过上述迭代方法求解目标函数的最优化问题最终得到的特征集(A 的基向量)与通过稀疏自编码学习得到的特征集是差不多的。但是实际上,为了获得更好的算法收敛性需要使用一些小技巧,后面的[[ Sparse Coding: Autoencoder Interpretation#Sparse coding in practice | 稀疏编码实践]] 稀疏编码实践章节会详细介绍这些技巧。用梯度下降方法求解目标函数也略需技巧,另外使用矩阵演算或[[Deriving gradients using the backpropagation idea | 反向传播算法]]则有助于解决此类问题。 | 理论上,通过上述迭代方法求解目标函数的最优化问题最终得到的特征集(A 的基向量)与通过稀疏自编码学习得到的特征集是差不多的。但是实际上,为了获得更好的算法收敛性需要使用一些小技巧,后面的[[ Sparse Coding: Autoencoder Interpretation#Sparse coding in practice | 稀疏编码实践]] 稀疏编码实践章节会详细介绍这些技巧。用梯度下降方法求解目标函数也略需技巧,另外使用矩阵演算或[[Deriving gradients using the backpropagation idea | 反向传播算法]]则有助于解决此类问题。 | ||
- | |||
== 拓扑稀疏编码 == | == 拓扑稀疏编码 == | ||
Line 165: | Line 163: | ||
通过上述方法,可以相对快速的得到局部最优解。 | 通过上述方法,可以相对快速的得到局部最优解。 | ||
+ | |||
+ | |||
+ | |||
+ | ==中英文对照== | ||
+ | |||
+ | :稀疏编码 sparse coding | ||
+ | :自编码 autoencoder | ||
+ | :目标函数 objective function | ||
+ | :稀疏代价 sparsity cost | ||
+ | :反向传播 backpropagation | ||
+ | :基于梯度的 gradient-based | ||
+ | :非凸的 non-convex | ||
+ | :权重衰变 weight decay | ||
+ | :拓扑稀疏编码 topographic sparse coding | ||
+ | :拓扑秩序 topographically ordered | ||
+ | :平滑的一范数惩罚 smoothed L1 penalty | ||
+ | :迷你块 mini-batches | ||
+ | :收敛速度 the rate of convergence | ||
+ | :梯度下降 gradient descent | ||
+ | :局部最优解 local optima | ||
Line 170: | Line 188: | ||
==中文译者== | ==中文译者== | ||
- | 许超(xuchaowill@gmail.com),@ | + | 许超(xuchaowill@gmail.com), 张睿卿(zrqjennifer@gmail.com), 林锋(xlfg@yeah.net) |
+ | |||
+ | |||
+ | {{Sparse_Autoencoder}} | ||
+ | |||
+ | |||
+ | {{Languages|Sparse_Coding:_Autoencoder_Interpretation|English}} |