人工增强数据集和LSTM / RNN网络?

时间:2017-08-11 11:13:45

标签: dataset deep-learning lstm rnn

我们使用来自两个不同作家的所有书籍制作的数据集,通过torch-rnn(和tensorflow char-rnn作为测试)生成新内容。

我们当前的数据集大约为6MB,我想知道如果我只是复制粘贴数据以便将网络数量加倍 - 从6MB到12MB / 24 /(...)120MB,会发生什么? - 根据数据集的新权重增加rnn-size和层数?尝试更糟糕吗?网络是否有机会达到更好的困惑?

感谢您的回答!

1 个答案:

答案 0 :(得分:1)

简短的回答是不,它没有任何意义。 ML方法的数据量不是以存储的文件的MB为单位,而是以您提供的信息量来衡量。复制现有数据不会提供任何新信息,因此它几乎没有任何内容。请注意,RNN的培训不是基于处理您的数据一次,您多次执行此操作 - 这应该会告诉您为什么重复数据集没有任何变化(进行一次到两次副本之间有什么区别)一个数据,并通过一个副本两次?)

数据增强是一个提供信息的过程,这就是为什么对于图像处理人们会随机旋转图像,裁剪它们等等,因为这会为您的模型提供有关哪种变换不具备的信息影响标签。语言增强很多更难,因为语言有非常复杂的规则,你可以尝试用基于wordnet的同义词替换一些单词,但这只是一种可能会失败的启发式(当你需要用给定意义的单词替换,而不仅仅是每个单词的出现。