应用错误收集

时间：2017-11-05 08:56:55

标签： deep-learning keras

我有一些我希望训练分类器的文本数据 - 为此我使用了LSTM。我对我的文本数据进行了标记化和矢量化，因此像“快速棕色狐狸......”这样的清晰文本被转换为填充序列'[1,0,0,25，...]等等。

已成功培训模型。现在，我需要将此模型应用于看不见的文本数据（不是列车或测试集的一部分）。

我最初考虑从训练/测试数据中不存在的看不见的数据中删除所有单词。但这也不像是一个解决方案，因为在对看不见的文本数据进行标记时，训练数据中存在的单词可能会映射到看不见的数据中的新数字。

所以，

我的问题是：如何在新数据上应用LSTM模型？

答案 0 :(得分：2)

就个人而言，我不喜欢看不见的数据会有新数字的解决方案。因为它会混淆你的模型...

我看到两个解决方案：