我有一些我希望训练分类器的文本数据 - 为此我使用了LSTM。 我对我的文本数据进行了标记化和矢量化,因此像“快速棕色狐狸......”这样的清晰文本被转换为填充序列'[1,0,0,25,...]等等。
已成功培训模型。现在,我需要将此模型应用于看不见的文本数据(不是列车或测试集的一部分)。
我最初考虑从训练/测试数据中不存在的看不见的数据中删除所有单词。但这也不像是一个解决方案,因为在对看不见的文本数据进行标记时,训练数据中存在的单词可能会映射到看不见的数据中的新数字。
所以,
我的问题是:如何在新数据上应用LSTM模型?
答案 0 :(得分:2)
就个人而言,我不喜欢看不见的数据会有新数字的解决方案。因为它会混淆你的模型...
我看到两个解决方案: