手写数字识别网络结构
非线性网络输入层+隐含层+隐含层+输出层隐含层数量增加,模型的表达能力越强卷积神经网络分类任务选择优化目标分类任务输出是一个标签,类似牛顿第二定律,采用均方误差时,减去一个标签不合理发现观测数据和背后规律之间的关系,输出某一标签的概率SoftMax,为什么采用e的指数最大似然思想交叉熵分类任务损失函数优化算法:调整学习率SGD:minibatch 收敛过程中震荡Momentum:不仅该mini..
·
非线性网络
输入层+隐含层+隐含层+输出层
隐含层数量增加,模型的表达能力越强
卷积神经网络
分类任务选择优化目标
分类任务输出是一个标签,类似牛顿第二定律,采用均方误差时,减去一个标签不合理
发现观测数据和背后规律之间的关系,输出某一标签的概率SoftMax,为什么采用e的指数
最大似然思想
交叉熵分类任务损失函数
优化算法:调整学习率
SGD:minibatch 收敛过程中震荡
Momentum:不仅该minibatch的结果,还要包含之前累积的速度
AdaGrad:学习率逐渐下降,越接近越微调
Adam:融合前两者思想Momentum+AdaGrad
分布式训练 多卡
训练过程中优化
更多推荐
所有评论(0)