在使用像GLOVE这样的预训练word2vec训练NN模型时,应该将词汇限制为训练集词汇吗?

时间:2019-08-28 05:33:07

标签: keras neural-network word-embedding glove

我想使用来自GLOVE的预训练向量在我的神经网络中将单词嵌入用于嵌入层。构造word2index字典时,是否需要将词汇限制在训练集中? 那会不会导致有限的不可泛化模型? 是否考虑将GLOVE的所有词汇都推荐使用?

1 个答案:

答案 0 :(得分:1)

是的,最好限制您的唱头大小。因为预训练的嵌入(例如GLOVE)中包含很多单词,这些单词不是很有用(因此Word2Vec),而字长越大,则需要的RAM越多。其他问题。

从所有数据中选择令牌。如果您的数据足够大,则不会导致受限的不可泛化模型。如果您认为您的数据没有足够的令牌,那么您应该知道两件事:

  1. 您的数据不够好,您必须收集更多数据。
  2. 您的模型无法在训练中未曾看到的令牌上很好地生成!因此,在您的嵌入中没有很多未使用的单词是没有意义的,最好是收集更多的数据来覆盖这些单词。

我有一个答案,说明如何从预先训练的模型in here中选择次要的词向量

相关问题