应用错误收集

我正在努力让textum实现工作，并且最近我已经将自己的数据输入了。我昨晚开始训练38000篇文章。今天早上，当我看到平均损失时，我大约有520万。当我玩文字玩具套装时，我能够快速下降到大约0.0000054，但这只是反对20篇文章。

我希望那些有更多经验的人，或许可以为我提供一些关于培训需要多长时间的期望。我目前在Nvidia 980M上运行它。上周我确实想尝试AWS g2.2xlarge实例，但我发现具有讽刺意味的是，我的本地机器似乎比Grid 520更快地处理事物。我仍然想测试P2实例和Google Cloud，但是现在我想我只是想使用我的本地机器。

任何人都可以提供的任何信息，关于我应该期待什么？谢谢！

所以我只是自己回答这个问题，因为我现在几乎可以这样做。我从另一篇文章中发现有趣的一点是，对于平均损失而言，对于大型数据集，您实际上不应该训练低于1的数据。值。这是因为你开始进入“过度拟合”状态。因此，在我目前使用我的笔记本电脑的Nvidia 980M对40k文章进行的培训中，词汇文件有65997个单词，平均花了大约一天的时间来降低平均损失＆＃39;一个整数。所以目前我看到数字大约在1.2到2.8之间。

------编辑------ 当我使用上述数字的avg损失对数据进行解码时，结果非常糟糕。在考虑了这个之后，我意识到我的数据集可能不是一个大的＆＃34;数据集。像辛潘和其他可以访问Gigaword数据集的人正在进行针对100万篇文章的培训。因此我觉得我的40k文章没什么可比的。同样在上述陈述时，我不确定他是指平均损失1还是0.01。无论哪种方式，我现在指的是Tensorboard有些可视化＆＃34;过度拟合＆＃34;我继续训练，直到我的平均损失降低。我稍后会在结果更好的时候加上这个。

希望这会为那些想知道相同的人提供一些参考。

textum培训需要多长时间才能将平均损失降低到合适的价值

1 个答案: