标签: word2vec
当我提供文本文档作为word2vec的输入时。它将向量分配给文本词汇中的极少数单词。为什么会这样?以及如何克服这个问题?
答案 0 :(得分:1)
我认为你看到创建的矢量很少的原因是你的语料库太小了。 Word2vec将从词汇表中删除不常出现的单词。这由 t-min-count 命令行开关控制。原始源代码的默认值设置为5.将删除在语料库中出现少于此次数的任何单词。