神经网络向量化
From Ufldl
(→中文译者) |
|||
Line 157: | Line 157: | ||
作为对照,回想一下在向量化的情况下,<tt>delta2</tt>现在应该是一个有m列的矩阵,分别对应着<math>m</math>个训练样本。还要注意,稀疏惩罚项<tt>sparsity_delta</tt>对所有的训练样本一视同仁。这意味着要向量化实现上面的计算,只需在构造<tt>delta2</tt>时,往矩阵的每一列上分别加上相同的值即可。因此,要向量化上面的代码,我们只需简单的用<tt>repmat</tt>命令把<tt>sparsity_delta</tt>加到<tt>delta2</tt>的每一列上即可(译者注:这里原文描述得不是很清楚,看似应加到上面代码中<tt>delta2</tt>行等号右边第一项,即<tt>W2'*delta3</tt>上)。 | 作为对照,回想一下在向量化的情况下,<tt>delta2</tt>现在应该是一个有m列的矩阵,分别对应着<math>m</math>个训练样本。还要注意,稀疏惩罚项<tt>sparsity_delta</tt>对所有的训练样本一视同仁。这意味着要向量化实现上面的计算,只需在构造<tt>delta2</tt>时,往矩阵的每一列上分别加上相同的值即可。因此,要向量化上面的代码,我们只需简单的用<tt>repmat</tt>命令把<tt>sparsity_delta</tt>加到<tt>delta2</tt>的每一列上即可(译者注:这里原文描述得不是很清楚,看似应加到上面代码中<tt>delta2</tt>行等号右边第一项,即<tt>W2'*delta3</tt>上)。 | ||
+ | ==中英文对照== | ||
- | + | :反向传播算法 Backpropagation Algorithm | |
+ | :(批量)梯度下降法 (batch) gradient descent | ||
+ | :(整体)代价函数 (overall) cost function | ||
+ | :方差 squared-error | ||
+ | :均方差 average sum-of-squares error | ||
+ | :规则化项 regularization term | ||
+ | :权重衰减 weight decay | ||
+ | :偏置项 bias terms | ||
+ | :贝叶斯规则化方法 Bayesian regularization method | ||
+ | :高斯先验概率 Gaussian prior | ||
+ | :极大后验估计 MAP | ||
+ | :极大似然估计 maximum likelihood estimation | ||
+ | :激活函数 activation function | ||
+ | :双曲正切函数 tanh function | ||
+ | :非凸函数 non-convex function | ||
+ | :隐藏层单元 hidden (layer) units | ||
+ | :对称失效 symmetry breaking | ||
+ | :学习速率 learning rate | ||
+ | :前向传导 forward pass | ||
+ | :假设值 hypothesis | ||
+ | :残差 error term | ||
+ | :加权平均值 weighted average | ||
+ | :前馈传导 feedforward pass | ||
+ | :阿达马乘积 Hadamard product | ||
+ | :前向传播 forward propagation | ||
Line 164: | Line 189: | ||
阎志涛(zhitao.yan@gmail.com), 谭晓阳(x.tan@nuaa.edu.cn), 邓亚峰(dengyafeng@gmail.com) | 阎志涛(zhitao.yan@gmail.com), 谭晓阳(x.tan@nuaa.edu.cn), 邓亚峰(dengyafeng@gmail.com) | ||
+ | |||
+ | |||
+ | |||
+ | {{Vectorized Implementation}} |