在对看不见的数据应用LSTM之前要考虑哪些因素

时间:2017-11-05 08:56:55

标签: deep-learning keras

我有一些我希望训练分类器的文本数据 - 为此我使用了LSTM。 我对我的文本数据进行了标记化和矢量化,因此像“快速棕色狐狸......”这样的清晰文本被转换为填充序列'[1,0,0,25,...]等等。

已成功培训模型。现在,我需要将此模型应用于看不见的文本数据(不是列车或测试集的一部分)。

我最初考虑从训练/测试数据中不存在的看不见的数据中删除所有单词。但这也不像是一个解决方案,因为在对看不见的文本数据进行标记时,训练数据中存在的单词可能会映射到看不见的数据中的新数字。

所以,

  • 训练有素的数据中的狐狸可以映射到20
  • 看不见的数据中的狐狸可以映射到70

我的问题是:如何在新数据上应用LSTM模型?

1 个答案:

答案 0 :(得分:2)

就个人而言,我不喜欢看不见的数据会有新数字的解决方案。因为它会混淆你的模型...

我看到两个解决方案:

  • 在火车和测试数据集的所有单词上安装一个标记器。只需组合这些文件即可进行标记化。
  • 使用大型文本数据集(f.e. Wikipedia)来拟合您的标记器,在这种情况下,您最有可能拥有所有单词。