keras lstm中的巨大内存负载(时间步长x功能)

时间:2017-12-21 23:01:06

标签: python deep-learning keras lstm sentiment-analysis

有10000个文件由200000个单词组成(每个单词)。我把所有文件中的所有单词放在python列表中。 np.reshape 是(10000,200000,256)。 256是因为一个热编码。这种方法的主要问题是内存,因为 input_shape =(200000,256)。我不知道是否可以进行反演,例如 np.reshape (10000,256,200000)和 input_shape =(256,200000),因为一切都是相同的如果keras正确地拆分每个样本,或者每个文件的单词都是用其他文件中的单词混合,最后返回错误的分类,我就没有确定。

1 个答案:

答案 0 :(得分:0)

词干,

找到独特的单词,

删除停用词,

阅读本教程;

https://machinelearningmastery.com/clean-text-machine-learning-python/