更多时代或更多层?

时间:2017-12-18 16:44:49

标签: tensorflow keras

如果使用更多的纪元或更多层,训练有什么不同?

这些训练是否应该平等,假设一致的超级障碍?

for epoch in range(20):
    LSTM

for epoch in range(5):
    LSTM -> LSTM -> LSTM -> LSTM

我知道训练后会有所不同。在第一种情况下,您将通过一个训练有素的LSTM细胞发送任何测试批次,而在第二种情况下,它将通过4个训练细胞。我的问题与培训有关。

似乎它们应该是相同的。

1 个答案:

答案 0 :(得分:2)

我认为你在非常不同的概念之间产生了很大的混淆。让我们回到基础。很简单,在受监督的机器学习实验中,您有一些训练数据X和模型。模型就像一个带有内部参数的函数,你给它一些数据,它会给你一个预测。在这里,我们说我们的模型有一层,这是一个LSTM。这意味着我们模型的参数是LSTM的参数(我不会说它们是什么,如果你不了解它们,你应该阅读介绍LSTM的论文)。

什么是时代:非常粗略地说,“n个时期的训练”意味着在训练数据上循环n次。您将每个示例n次显示给模型以进行更新。越多的时代,您的网络越习惯于您的训练数据。 (我过于简单化了。)

我希望现在更清楚的是,时代和层与层无关。这些图层是您的模型的组成部分,时间段是您将示例展示给模型的次数。

如果放置5个LSTM图层,则只需要5倍的参数。但无论如何,每个训练样例都将通过1或5个堆叠的LSTM层......