keras - 在使用像GLOVE这样的预训练word2vec训练NN模型时，应该将词汇限制为训练集词汇吗？ - Thinbug

在使用像GLOVE这样的预训练word2vec训练NN模型时，应该将词汇限制为训练集词汇吗？

时间：2019-08-28 05:33:07

标签： keras neural-network word-embedding glove

我想使用来自GLOVE的预训练向量在我的神经网络中将单词嵌入用于嵌入层。构造word2index字典时，是否需要将词汇限制在训练集中？那会不会导致有限的不可泛化模型？是否考虑将GLOVE的所有词汇都推荐使用？

1 个答案:

答案 0 :(得分：1)

是的，最好限制您的唱头大小。因为预训练的嵌入（例如GLOVE）中包含很多单词，这些单词不是很有用（因此Word2Vec），而字长越大，则需要的RAM越多。其他问题。

从所有数据中选择令牌。如果您的数据足够大，则不会导致受限的不可泛化模型。如果您认为您的数据没有足够的令牌，那么您应该知道两件事：

您的数据不够好，您必须收集更多数据。
您的模型无法在训练中未曾看到的令牌上很好地生成！因此，在您的嵌入中没有很多未使用的单词是没有意义的，最好是收集更多的数据来覆盖这些单词。

我有一个答案，说明如何从预先训练的模型in here中选择次要的词向量