稀疏编码
From Ufldl
Line 98: | Line 98: | ||
【一审】因为经验分布函数 <math>P^*(\mathbf{x})</math> 对于所有的 <math>\mathbf{\phi}</math>其结果是常量,这就等于说要最大化对数似然函数 <math>P(\mathbf{x}\mid\mathbf{\phi})</math>。 | 【一审】因为经验分布函数 <math>P^*(\mathbf{x})</math> 对于所有的 <math>\mathbf{\phi}</math>其结果是常量,这就等于说要最大化对数似然函数 <math>P(\mathbf{x}\mid\mathbf{\phi})</math>。 | ||
假设 <math>\nu</math> 是具有方差 <math>\sigma^2</math>的高斯白噪音,则有下式: | 假设 <math>\nu</math> 是具有方差 <math>\sigma^2</math>的高斯白噪音,则有下式: | ||
+ | |||
+ | :<math>\begin{align} | ||
+ | P(\mathbf{x} \mid \mathbf{a}, \mathbf{\phi}) = \frac{1}{Z} \exp\left(- \frac{(\mathbf{x}-\sum^{k}_{i=1} a_i \mathbf{\phi}_{i})^2}{2\sigma^2}\right) | ||
+ | \end{align}</math> | ||
+ | |||
+ | In order to determine the distribution <math>P(\mathbf{x}\mid\mathbf{\phi})</math>, we also need to specify the prior distribution <math>P(\mathbf{a})</math>. Assuming the independence of our source features, we can factorize our prior probability as | ||
+ | |||
+ | 【初译】为决定 <math>P(\mathbf{x}\mid\mathbf{\phi})</math>的分布,需要描述先验分布<math>P(\mathbf{a})</math>。假设原特征分布独立,可分解先验分布如下式: | ||
+ | 【一审】为了确定 <math>P(\mathbf{x}\mid\mathbf{\phi})</math>的分布,我们同时要确定先验分布<math>P(\mathbf{a})</math>,假定我们的特征变量是独立的,我们就可得到先验概率为: | ||
+ | |||
+ | :<math>\begin{align} | ||
+ | P(\mathbf{a}) = \prod_{i=1}^{k} P(a_i) | ||
+ | \end{align}</math> | ||
+ | |||
+ | At this point, we would like to incorporate our sparsity assumption -- the assumption that any single image is likely to be the product of relatively few source features. Therefore, we would like the probability distribution of <math>a_i</math> to be peaked at zero and have high kurtosis. A convenient parameterization of the prior distribution is | ||
+ | |||
+ | :<math>\begin{align} | ||
+ | P(a_i) = \frac{1}{Z}\exp(-\beta S(a_i)) | ||
+ | \end{align}</math> | ||
+ | |||
+ | Where <math>S(a_i)</math> is a function determining the shape of the prior distribution. | ||
+ | |||
+ | 【初译】在这一点,我们将纳入稀疏假设---假设任一个图像都可能是相对少数源特征的乘积。因此,我们希望 <math>a_i</math> 的分布在零点得到峰值,且有较高的峰度。先验分布的一个合适的参数化是 | ||
+ | |||
+ | :<math>\begin{align} | ||
+ | P(a_i) = \frac{1}{Z}\exp(-\beta S(a_i)) | ||
+ | \end{align}</math> | ||
+ | |||
+ | |||
+ | 这里 <math>S(a_i)</math> 是一个函数,决定先验分布的形状。 | ||
+ | 【一审】至此,我们将“稀疏”的设想加入进来――任一图像都可能是由很少一部分相关特征生成的。因此,我们希望 <math>a_i</math> 的概率分布在零值附近是凸起的,而且形态很陡峭。一个简易的参数化先验分布就是: | ||
+ | |||
+ | :<math>\begin{align} | ||
+ | P(a_i) = \frac{1}{Z}\exp(-\beta S(a_i)) | ||
+ | \end{align}</math> | ||
+ | |||
+ | |||
+ | 这里函数 <math>S(a_i)</math> 决定了先验分布的形状。 |