应用错误收集

时间：2018-03-26 09:55:08

标签： nlp word2vec word-embedding

我正在训练我的word2vec模型（skip-gram），词汇大小为10万。但在测试时，我得到的几个单词不在词汇表中。为了找到他们的嵌入，我尝试了两种方法：

尽管采用了这些方法，我仍然无法完全摆脱词汇词的问题。

在像fastText这样的训练时，word2vec是否会考虑一个单词的所有n-gram？

注意 - 在fastText中，如果我们的输入词是quora，那么它会考虑语料库中所有可能的n-gram。

答案 0 :(得分：0)

我认为你案例中的词汇外词是非常罕见的。其中一种可能性是使用指定符号的散列（或另一个非常罕见的单词）作为这种词汇外单词的标记。这需要对这些单词进行预处理，但在实际应用中应该足够好。