所以我将随机化窗口设置为100,000。在我的日志中,我可以看到它在0个错误和很多错误之间振荡,这让我想知道数据是否真的是随机的。训练数据由输入通常约为50个令牌的序列组成,对于约99%的序列输出为6个令牌,在另一个1%中可能约为400个令牌(这些序列是最重要的学习当然如何输出)。似乎不止一个较长的序列可能会聚集在一起,这就是为什么错误率可能会突然上升的原因。这可能吗?
答案 0 :(得分:0)
如果样本很小,请尝试指定更大的随机化窗口,即randomizationWindow = 100000000。可能是您的窗口只是一个块 - 然后数据将只在内部随机化,而不是在块之间。
(如果您在阅读器部分指定了verbosity = 4,随机化的windows [)信息,您可以看到如何分割数据。
您可以在内存中存储的数据越多越好。同样从perf角度来看,因为(在初始加载之后)正在处理的数据中,读者可以开始预取新的块,并且GPU不会受到IO限制。