移动加权平均法权重(移动加权平均法跟加权平均法)

网络快照集成法是在每次学习率周期结束时保存模型，然后在预测过程中同时使用保存下来的模型。

网络快照集成法使用基于退火策略的循环学习率策略。

局部和全局最优解。在训练和测试过程中，平滑的最低值会产生相似的损失。然而，训练和测试过程中产生的局部损失，有非常大的差异。换句话说，全局最小值比局部最小值更通用。

左边：传统观点认为好的局部最小值被高损失区域分隔开。如果我们观察连接局部最小值的直线，会发现这是正确的。中间和右边：然而，在局部最小值之间存在通路，这些通路上的损失值始终很低。FGE沿着这些通路拍快照，并利用这些快照构建一个集合。

左边：W1,W2和W3 代表了3个独立的训练网络，Wswa是它们的平均。中间：与SGD相比，Wswa 在测试集上产生了更优越的性能。右边：注意即使Wswa在训练集上的性能更差，它在测试集上的效果仍然更好。

随机加权平均权重更新公式

每次学习率循环结束的时候，第二个模型的当前权重会被用于更新正在运行的平均模型的权重，即对已有的平均权重和第二个模型产生的新权重进行加权平均（左图中的公式）。采用这个方法，训练时，只需要训练一个模型，存储两个模型。而预测时，只需要一个当前的平均模型进行预测。用这个模型做预测，比前面提到的方法，速度快得多。之前的方法是用集合中的多个模型做预测，然后对多个预测结果求平均。实现

当然，著名的fast.ai库也实现了SWA。每个人应该都在使用这个库。如果你还没有看到这个课程，请点击此链接。

雷锋网字幕组编译。

移动加权平均法权重(移动加权平均法跟加权平均法)

友情链接百度权重≥5符合友链交换

联系我们

移动加权平均法 权重(移动加权平均法跟加权平均法)

相关推荐

友情链接 百度权重≥5符合友链交换

联系我们

移动加权平均法权重(移动加权平均法跟加权平均法)

友情链接百度权重≥5符合友链交换