标签: nlp word2vec word-embedding
我正在训练我的word2vec模型(skip-gram),词汇大小为10万。但在测试时,我得到的几个单词不在词汇表中。为了找到他们的嵌入,我尝试了两种方法:
从词汇计算最小编辑距离词并获取其嵌入。
从单词中构造出不同的n-gram并在词汇中搜索它们。
尽管采用了这些方法,我仍然无法完全摆脱词汇词的问题。
在像fastText这样的训练时,word2vec是否会考虑一个单词的所有n-gram?
注意 - 在fastText中,如果我们的输入词是quora,那么它会考虑语料库中所有可能的n-gram。
答案 0 :(得分:0)
我认为你案例中的词汇外词是非常罕见的。其中一种可能性是使用指定符号的散列(或另一个非常罕见的单词)作为这种词汇外单词的标记。这需要对这些单词进行预处理,但在实际应用中应该足够好。