word2vec在文本中给出了很少单词的向量。为什么?

时间:2016-01-21 12:04:48

标签: word2vec

当我提供文本文档作为word2vec的输入时。它将向量分配给文本词汇中的极少数单词。为什么会这样?以及如何克服这个问题?

1 个答案:

答案 0 :(得分:1)

我认为你看到创建的矢量很少的原因是你的语料库太小了。 Word2vec将从词汇表中删除不常出现的单词。这由 t-min-count 命令行开关控制。原始源代码的默认值设置为5.将删除在语料库中出现少于此次数的任何单词。