我试图创建一个简单的LSTM网络用于语音识别,但我的网络验证准确率很低。 我试图弄明白,这是由于培训输入和测试输入的依赖性,或者这是因为过度拟合问题。
首先我假设这是一个过度拟合的问题,然后我尝试增加训练数据集的大小,但是任何人都可以告诉我应该用多大的数据集来训练我的网络?目前我使用的是平衡输入为0,无0为分类。 (目前我使用1,823的输入进行训练,456进行测试,输入来自100个不同的0到9位数的扬声器。)
答案 0 :(得分:-1)
很难说清楚。不知道数据的分布,你正在使用的lstm单元的类型,你想要达到的验证准确度等等......没有办法知道需要多少数据。
很遗憾,我们没有足够的信息来回答你。
我可以告诉你的是,更多的数据会以渐近的方式减少训练和测试准确度之间的差异。因此,更多数据意味着更少的差异。何时停止添加数据取决于您的目标。
辍学技术也很有用。