标签: tensorflow recurrent-neural-network
我正在实施双向动态链接。现在我面临的问题是我是否需要提取训练样本。
我的想法(和恐惧)是,如果我不铲斗,我可能会面临以下情况:在一个包含32个样本的批次中,可能只有一个样本长度低于500个字符,一个样本长度为10.000个字符backprop的行为基本上就像我只有一个批量大小为1,并且可能会很快导致NANs,或者每次出现这种情况时都会非常糟糕地甩掉学到的权重。
在编写代码并检查培训和调试天数之前的任何经验? THX