应用错误收集

时间：2016-09-06 03:58:40

标签： machine-learning neural-network gradient-descent

你能解释下面的话，它真的让我很困惑。 1.iterations 2.梯度下降步骤 3.epoch 4.batch大小。

答案 0 :(得分：7)

在神经网络术语中：

示例：如果您有1000个训练样例，并且批量大小为500，则需要2次迭代才能完成1个时期。

Gradient Descent ：

那么让我们看看梯度下降的作用。想象一下，这就像一些草地公园的景观，有两座像这样的山丘，我想让我们想象一下，你正站在山上的那个地方，在你公园的这座小红山上。

事实证明，如果你站在山坡上的那个位置，你会四处寻找并发现最好的方向是向下走一小步，大致就是那个方向。

好的，现在你在山上的这个新点。再一次，你会四处寻找并告诉我应该采取什么方向才能让一个小宝宝走下坡路？如果你这样做并采取另一步，你就朝着这个方向迈出了一步。

然后你继续前进。从这个新的角度来看，你可以看看周围的最快速度。再迈出一步，再迈出一步，直到你在这里收敛到这个局部最小值。

在渐变下降中，我们要做的是我们要旋转360度左右，看看我们周围的一切，然后问，如果我朝某个方向走一小步，我想要尽快走下坡路，我会把那个小宝宝带进去的方向是什么？如果我想下楼，所以我想尽快走下这座山。

我希望你现在了解梯度下降步骤的意义。希望这有用！

答案 1 :(得分：0)

除了Sayali的好答案之外，还有definitions from Keras python package：

示例：数据集的一个元素。示例：一个图像是一个样本卷积网络。示例：一个音频文件是a的示例语音识别模型
批次：一组N个样本。处理批次中的样品独立地，并行地。如果是培训，批次只会产生一个更新到模型。批次通常近似于分布输入数据比单个输入更好。批次越大，近似越好;然而，它也是如此批处理将需要更长的时间来处理，仍然只会产生一个更新。对于推理（评估/预测），建议选择批量大小，你可以负担得起，而不用走出去记忆（因为较大的批次通常会导致更快评估/预测）。
纪元：任意截止，通常定义为“一次通过整个数据集“，用于将培训分成不同的阶段，这对于记录和定期评估很有用。