使用单词嵌入时处理遗漏单词的最佳方法是什么?

时间:2018-02-09 01:51:33

标签: machine-learning nlp deep-learning word2vec word-embedding

我有一套预先训练过的word2vec单词向量和一个语料库。我想使用单词向量来表示语料库中的单词。语料库中有一些单词,我没有训练过单词向量。处理那些没有预先训练过的矢量的单词的最佳方法是什么?

我听过几个建议。

  1. 为每个缺失的单词使用零向量

  2. 为每个缺失的单词使用随机数的向量(有一堆关于如何绑定这些randoms的建议)

  3. 我的想法:从所有预先训练的矢量中取一个矢量,其值是该位置中所有值的平均值

  4. 有问题经验的人有关于如何处理这个问题的想法吗?

2 个答案:

答案 0 :(得分:3)

来自Facebook的FastText汇集了来自子词n-gram的单词向量,这使得它可以处理词汇单词。有关此方法的详情,请参阅:Out of Vocab Word Embedding

答案 1 :(得分:2)

在经过预先训练的word2vec嵌入矩阵中,通常可以使用单词unk作为索引来查找通常是最佳向量的预先设计向量。