翻译afastlearningalgorithmfordeepbeliefnets.doc

资源ID：399375 资源大小：619.27KB 全文页数：15页
资源格式： DOC 下载权限：游客/注册会员 下载费用：10积分【人民币10元】

快捷注册下载

会员登录下载

三方登录下载：

下载资源需要10积分【人民币10元】

邮箱/手机：
温馨提示：	支付成功后，系统会自动生成账号（用户名和密码都是您填写的邮箱或者手机号），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

下载资源需要10积分【人民币10元】

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，既可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰

网站客服

侵权投诉

翻译afastlearningalgorithmfordeepbeliefnets.doc

基于深度置信网络的快速学习算法Afastlearningalgorithmfordeepbeliefnets摘要本文展示了如何运用“互补先验”来消除使得在多隐层密度连接型置信网络中推理困难的explainingaway现象。利用互补先验，我们提出了一个快速贪婪算法，用于学习深度有向置信网络，每次学习一层，为最顶上的两层提供无向关联记忆。快速贪婪算法用来初始化一个更慢的的学习过程，这个过程是用wake-sleep算法的对比版本来微调权值。在微调之后，一个三层隐含层的网络生成了一个很好的手写数字图像和其它记号的联合分布生成模型。这个生成模型能比判别式学习算法更好的分类数字。这些存在数字的低维副本通过顶层关联记忆的自由能量地形的长峡谷建模，利用有向关系去表现脑海中的关联记忆，很容易找到这些峡谷。1、介绍在一些含有多个隐层的密度连接有向置信网络中，学习是困难的，因为给定一个数据向量，要推断隐含活动的条件分布是很难的。变分方法简单地去近似真实的条件分布，但是这些近似可能很差，特别是在假设先验独立的最深的隐层。而且，很多学习仍需要所有的参数一起学习，造成学习时间随参数增加而剧增。图1这个网络用来建模数字图像的联合分布。我们设计了一个模型，模型的顶部两层来自于一个无向联想记忆（见图1），剩下的隐层来自于一个有向无环图，这个有向无环图能将联想记忆转换为像像素点那样的观察变量的。这种混合模型有很多优点1、可以利用快速贪婪算法来快速的寻找一个很好的参数集合，甚至是有数百万参数和很多隐层的深度网络。2、学习算法是无监督的，但是可以通过学习一个生成标记和数据的模型，从而使的模型同样适用于有标记的样本。3、提出微调算法来学习优秀的生成模型，是一个优于用于手写数字MNIST数据库的判别式算法的算法。4、生成模型更易于解释深度隐层的分布情况。5、用于形成认知的推断又快又准。6、学习算法是本地的神经元强度的调整仅取决于前端神经元和后端神经元的状态。7、通信简单神经元仅需要去联系他们的随机二值状态。第二部分介绍了“互补先验”的概念，它可以消除使的有向模型推断困难的“explainingaway”现象。并展示了一个带补充先验的有向置信网络的例子。第三部分展示了限制玻尔姿曼机与定权无限有向网的等价性。第四部分介绍了一个快速贪婪算法，可以每次建立多层有向网中的一层。变分边界表明了随着每增加一个新的层，整个生成模型都会得到改进。贪婪算法与boosting有一些相似性，在于它的重复利用“弱”分类器而不是重新权衡每个数据向量以保证下一步能学到新的东西。被用来构建深度有向网的弱学习器本身就是一个无向图模型。第五部分，快速贪婪算法得到的权重如何用“上下”算法进行微调。这是一个wake-sleep算法的对比版本，它没有“模型平均”问题，这个问题会使得wake-sleep算法得不到很好的认知权重。第六部分展示了一个网络的模式识别效果，这个网络有三个隐层，和手写数字MNIST集的170万个权重。不提供任何几何学时，没有任何特殊的预处理，这个网络的生成效果在10000张数字集上是1.25的错误率。在这个特殊的应用中，这个算法比最佳的后向传播网络优了1.5。该算法也稍微优于支持向量机在相同任务中取得的1.4的错误率。最后，第七部分展示了当运行不被视觉输入所限制时，网络的“mind”中在发生着什么。这个网络有一个完整的生成模型，所以可以轻易的看到它的mind，我们可以简单地从高层表示中生成一个图像。综上所述，我们考虑了一个由随机二值变量组成的网络，但是这些ideas可以生成其他模型，其中变量的log概率是一个有向连接邻居的状态的加性函数。2.互补先验分布有向置信网络中的“explainingaway”现象使得推断变得困难，见图2。在密度连接网络中，隐含变量的后验分布是很棘手的，除非少数特殊的例子，如混合模型，带高斯噪声的线性模型。马尔可夫链MonteCarlo可以被用来从后验采样，但他们特别耗时。变分方法用一个更易处理的分布来近似真实的后验，并可以被用来为训练数据的log概率划分一个更低的下界lowerbound。令人欣慰的是，学习可以确保给出一个变分边界，甚至是当隐含状态的推断是错误的时候，但寻找一个一次性消除“explainingaway”的方法会更好，甚至是在隐含变量对可见变量有高度相关性的模型里。但大部分认为这是不可能的。图2当我们观察房价的跳跃时，一个包含两个独立的、罕见的原因的logistic置信网络，变得高度非相关。-10的地震节点意味着，在任何观察的情况下，这种节点关的可能性比开的可能性多E10倍。如果地震节点打开，卡车节点关闭，跳跃节点有一个总数为0的输入，这说明开、关的可能性是相等的。一个logistic置信网络是由随机二值单元组成的。当用这个网络去生成数据，打开单元i的概率是一个由它的直接祖先j，和与直接祖先的联系权重wij组成的logistic函数（1）exp1jiiisbsp这里的bi指单元i的偏差。如果一个logistic置信网络只有一个隐层，隐含变量的先验分布是因子的，因为当用模型来生成数据时，它们的二值状态是被独立选择的。后验分布中的非独立性来自于数据中的可能性term。可能我们能通过另外的隐层建立补充先验来削减“explainingaway”现象。当可能性term随先验增加，我们会得到一个因子的后验。补充先验存在的并不明显，但图3展示了一个简单的定权无限logistic置信网的例子，这个网络中每一隐层都有一个补充先验。利用固定的权重来构建补充先验可能看起来小事一桩。正如我们所见，然而，它是一个很好的学习算法，逐渐的由上一层的权重来求解每一层的权重。2.1定权无限有向模型我们可以通过无限深度隐层的随机初始化后，用图3中的无限有向网来生成数据，然后执行自顶向下“祖先”pass，这里的每层的每个变量的二值状态都是服从由自顶向下的来自于它上层的活跃父节点的输入决定的Bernoulli分布。在这方面，它就跟其它的有向无环置信网络一样。然而，不同于其它有向网络，我们可以开始于可见单元的数据向量，然后用权重转置矩阵去依次推断每一个隐层的因子分布，来从所有隐层的真实的先验分布中取样。在每一个隐层，在对上一层进行因子后验的计算之前，我们从每一个因子后验中取样。附录A显示了这个流程给出了无偏的样本，因为每一层的补充先验确保了后验分布是因子的。图3定权无限置信网络。向下的箭头代表生成模型。向上的箭头不属于这个模型。他们表示用来从网络的每个隐层的后验分布中推断样本的参数。既然我们能够从真实的后验中采样，我们就可以计算数据的log概率的导数。首先对H0层的j单元到V0层的i单元的生成权重求导，见图3。在0ijlogistic置信网络中，单个数据向量V0的极大似然学习准则是（2）log000iijijvhvp这里的表示采样状态的平均，vi0指如果可见向量是由采样的隐含状态中随机重构的，单元i被打开的概率。由第一层隐层H0的采样随机状态，计算第二层隐层V1的后验分布，跟重构数据是一样的过程，所以vi1是一个概率为vi0的Bernoul

注意事项

本文（翻译afastlearningalgorithmfordeepbeliefnets.doc）为本站会员（芳华再现）主动上传，蚂蚁文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知蚂蚁文库（发送邮件至2303240369@qq.com或直接QQ联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。