神经网络优化器
首页 专栏 神经网络 文章详情
0

神经网络优化器

北极网友阿伟 发布于 4 月 26 日

神经网络的目的是寻找合适的参数,使得损失函数的值尽可能小。解决这个问题的过程称为最优化。解决这个问题使用的算法叫做优化器。

1、 BGD、SGD、MSGD

BGD:最原始梯度下降算法,计算需使用整个数据集的损失(慢)
SGD:每次选取一个batch数据,每个数据点的loss都会对模型进行更新(震荡,易受噪声影响)
MSGD:计算一批样本的平均来更新,一般为这种。

分别针对学习率和各个参数设置更新策略。

动量法:运动大小跟过去状态相关。(优化梯度更新方向)

牛顿法:先用当前速度更新模型,在用更新的临时模型对参数动量进行矫正。

自适应法:对每个参数设置不同的学习率。

神经网络
阅读 36 更新于 4 月 26 日
收藏
分享
本作品系原创, 采用《署名-非商业性使用-禁止演绎 4.0 国际》许可协议
avatar
北极网友阿伟

啦啦啦啦啦

1 声望
0 粉丝
关注作者
0 条评论
得票数 最新
提交评论
你知道吗?

注册登录
avatar
北极网友阿伟

啦啦啦啦啦

1 声望
0 粉丝
关注作者
宣传栏
目录

神经网络的目的是寻找合适的参数,使得损失函数的值尽可能小。解决这个问题的过程称为最优化。解决这个问题使用的算法叫做优化器。

1、 BGD、SGD、MSGD

BGD:最原始梯度下降算法,计算需使用整个数据集的损失(慢)
SGD:每次选取一个batch数据,每个数据点的loss都会对模型进行更新(震荡,易受噪声影响)
MSGD:计算一批样本的平均来更新,一般为这种。

分别针对学习率和各个参数设置更新策略。

动量法:运动大小跟过去状态相关。(优化梯度更新方向)

牛顿法:先用当前速度更新模型,在用更新的临时模型对参数动量进行矫正。

自适应法:对每个参数设置不同的学习率。