应用错误收集

不幸的是，神经网络优化通常是is non-convex，因此无法知道特定的局部最小值是否是全局最小值[*]具有预先训练的权重的事实并不特别相关[**] 。 solver has an effect

的类型

也就是说，有些标准偶尔会启发式地使用。重要的是：use a testing set, not a training set用于评估（然后在检查性能时使用单独的验证集）。

这里是slightly older survey，尽管结果往往总是凭经验得出的

此外，Goodfellow提出以下重要建议，以确保无论您使用何种标准，参数都应尽可能最佳：

每次验证集的错误改善时，我们都会存储一个副本模型参数。当训练算法终止时，我们返回这些参数，而不是最新参数。的当没有参数达到最佳状态时，算法终止记录了某些预定迭代次数的验证错误

[*]还有其他条件（e.g）可能会提供此信息，但都不适用

[**]我不知道有这种或另一种方式的研究，但我怀疑这实际上会使问题更困难，因为您是从一个漂亮的家伙开始的良好的局部最小值，可能很难爬出来

[***]这与使用交叉验证来测量测试集或模型选择的准确性不同，请参阅here