如何在word2vec模型中测试时嵌入词汇单词?

时间:2018-03-26 09:55:08

标签: nlp word2vec word-embedding

我正在训练我的word2vec模型(skip-gram),词汇大小为10万。但在测试时,我得到的几个单词不在词汇表中。为了找到他们的嵌入,我尝试了两种方法:

  1. 从词汇计算最小编辑距离词并获取其嵌入。

  2. 从单词中构造出不同的n-gram并在词汇中搜索它们。

  3. 尽管采用了这些方法,我仍然无法完全摆脱词汇词的问题。

    在像fastText这样的训练时,word2vec是否会考虑一个单词的所有n-gram?

    注意 - 在fastText中,如果我们的输入词是quora,那么它会考虑语料库中所有可能的n-gram。

    https://www.quora.com/How-does-fastText-output-a-vector-for-a-word-that-is-not-in-the-pre-trained-model

1 个答案:

答案 0 :(得分:0)

我认为你案例中的词汇外词是非常罕见的。其中一种可能性是使用指定符号的散列(或另一个非常罕见的单词)作为这种词汇外单词的标记。这需要对这些单词进行预处理,但在实际应用中应该足够好。