我正在努力让textum实现工作,并且最近我已经将自己的数据输入了。我昨晚开始训练38000篇文章。今天早上,当我看到平均损失时,我大约有520万。当我玩文字玩具套装时,我能够快速下降到大约0.0000054,但这只是反对20篇文章。
我希望那些有更多经验的人,或许可以为我提供一些关于培训需要多长时间的期望。我目前在Nvidia 980M上运行它。上周我确实想尝试AWS g2.2xlarge实例,但我发现具有讽刺意味的是,我的本地机器似乎比Grid 520更快地处理事物。我仍然想测试P2实例和Google Cloud,但是现在我想我只是想使用我的本地机器。
任何人都可以提供的任何信息,关于我应该期待什么?谢谢!
答案 0 :(得分:2)
所以我只是自己回答这个问题,因为我现在几乎可以这样做。我从另一篇文章中发现有趣的一点是,对于平均损失而言,对于大型数据集,您实际上不应该训练低于1的数据。值。这是因为你开始进入“过度拟合”状态。因此,在我目前使用我的笔记本电脑的Nvidia 980M对40k文章进行的培训中,词汇文件有65997个单词,平均花了大约一天的时间来降低平均损失'一个整数。所以目前我看到数字大约在1.2到2.8之间。
------编辑------ 当我使用上述数字的avg损失对数据进行解码时,结果非常糟糕。在考虑了这个之后,我意识到我的数据集可能不是一个大的"数据集。像辛潘和其他可以访问Gigaword数据集的人正在进行针对100万篇文章的培训。因此我觉得我的40k文章没什么可比的。同样在上述陈述时,我不确定他是指平均损失1还是0.01。无论哪种方式,我现在指的是Tensorboard有些可视化"过度拟合"我继续训练,直到我的平均损失降低。我稍后会在结果更好的时候加上这个。
希望这会为那些想知道相同的人提供一些参考。