【deep learning学习笔记】Greedy Layer-Wise Training of Deep Networks

标题：Greedy Layer-Wise Training of Deep Networks作者：Yoshua Bengio发表于：NIPS’2006主要内容：很经典的文章了。在Hinton提出 stack RBM 组成的DBN之后，Bengio这篇文章一方面验证DBN模型，另一方面讨论可能的扩展。对于shallow architecture模型，如SVM，

xceman1997

9706人浏览 · 2013-08-11 22:29:47

xceman1997 · 2013-08-11 22:29:47 发布

标题：Greedy Layer-Wise Training of Deep Networks

作者：Yoshua Bengio

发表于：NIPS’2006

主要内容：

很经典的文章了。在Hinton提出 stack RBM 组成的DBN之后，Bengio这篇文章一方面验证DBN模型，另一方面讨论可能的扩展。

对于shallow architecture模型，如SVM，对于d个输入，要有2^d个样本，才足够训练模型。当d增大的时候，这就产生了维数灾难问题。而多层神经网络能够避免这个问题：

boolean functions (such as the function that computes the multiplication of two numbers from their d-bit representation) expressible by O(logd) layers of combinatorial logic with O(d) elements in eachlayer may require O(2^d)elements when expressed with only 2 layers。

但是对于深层神经网络，用梯度下降方法来训练，通常会陷入局部最优解。

文章接下来介绍deep belief network。

1. 扩展到连续输入

一种直观的方法，是将输入的实属向量进行归一化，转成(0, 1)区间的数。然后用正常的RBM的CD-k来训练就行。

作者从RBM的能量函数入手，将输入转成高斯unit，然后用CD-k算法就可以训练。具体怎么操作的，作者没细说，我也没看懂。

2. 将隐含层扩展成连续值的形式

上述方法也可以用到隐含层。

3. Understanding why the layer-wise strategy works

作者用autoencoder来替换DBN中的RBM，得到了comparable的实验结果。作者用surperwised训练算法来代替RBM的unsurpervised训练算法，发现结果略差，作者的解释是：surperwised的方法过于“贪心”，在训练过程中丢掉了部分信息。

作者在文章之后附上了实验的所有算法的伪代码，值得借鉴。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

【Spring AI】本地大模型接入MCP实现联网搜索

MCP技术社区

打通模型与现实世界的最后一公里？MCP极速入门指南

MCP技术社区

MCP概述及MCP Server的使用和实现（谷歌ADK使用MCP Server）

MCP 的主要目的在于解决当前 AI 模型因数据孤岛限制而无法充分发挥潜力的难题，MCP 使得 AI 应用能够安全地访问和操作本地及远程数据，为 AI 应用提供了。MCP 可以直接在 AI 与数据（包括本地数据和互联网数据）之间架起一座桥梁，通过 MCP 服务器和 MCP 客户端，大家只要都遵循这套协议，就能实现“万物互联”。MCP 客户端（MCP Clients）：在主机程序内部，与 MCP s