非线性网络

输入层+隐含层+隐含层+输出层

隐含层数量增加,模型的表达能力越强

卷积神经网络

 分类任务选择优化目标

分类任务输出是一个标签,类似牛顿第二定律,采用均方误差时,减去一个标签不合理

 

 

 

 

 发现观测数据和背后规律之间的关系,输出某一标签的概率SoftMax,为什么采用e的指数

 最大似然思想

交叉熵分类任务损失函数

 

优化算法:调整学习率

SGD:minibatch 收敛过程中震荡

Momentum:不仅该minibatch的结果,还要包含之前累积的速度

AdaGrad:学习率逐渐下降,越接近越微调

Adam:融合前两者思想Momentum+AdaGrad

 

分布式训练 多卡

 

训练过程中优化

 

 

 

 

 

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐