好的,我承认 - 这是一个糟糕的问题。你可能应该对它进行投票;)然而,正如我真的需要一些见解,如果你可以等到某种善良的灵魂首先回答它......
我已成功安装并运行RNN教程。我对此感到满意 - 尽管我对代码有一种不错的感觉。不幸的是,the TensorFlow RNN tutorial并没有定义(至少对我来说)理解所需的一些关键项目:
培训和验证集之间的逻辑区别是什么?具体来说,就&p; ptb.train.txt'中的文件内容而言和' ptb.valid.txt'
例如,ptb.train.txt包含:
there is no asbestos in our products now
但是asbestos
和[{1}}都没有显示在in our products
中,因此不清楚正在接受培训的内容以及正在验证的内容。
我的测试困惑'报告为121.236。这是什么意思?再一次,我真的很想知道' ptb.test.txt'文件 - 被测量的是什么?
另一个典型示例:ptb.valid.txt
包含:
ptb.test.txt
这个'顺序' the offers were to work as a writer not an editor
或ptb.train.txt
文件中也没有出现紧密的子集。也许我完全偏离基础,但我认为目的是匹配这些序列。这是不正确的?报告的困惑与此有何关系?
最后(再次,这里是NOOB),即使是这个简单的例子也需要很长时间。有没有办法保存受过训练的'系统,以便我可以针对不同的测试数据集运行它?
更新 我认为问题#3是answered in this SO question
答案 0 :(得分:0)
您需要了解一些元素才能理解该过程。机器学习算法正在针对给定数据集进行训练。这些算法可能会“记住”您的整个数据集,因此它们将始终为您的数据集提供正确的答案。 正确答案是您问题的预期结果。如果模型记住你的所有列车数据,它对新的输入数据反应不会很好,因此他的预测能力不会很好。要训练模型以获得更好的预测能力,可以将数据集拆分为 train 和 validation ,其中验证子集不用于训练,但用于控制model不记忆 train 数据集。
困惑是评估模型有多好的特定指标
是的,您可以参考文档:https://www.tensorflow.org/programmers_guide/variables
答案 1 :(得分:0)
此外,这些问题属于https://stats.stackexchange.com/:)