我正在使用gensim框架中的Doc2vec类来计算语料库中每个文档的矢量表示。
语料库包含非常短的句子,甚至可以有一个单词。我观察到,对于许多句子,特别是短句,Doc2vec不提供任何表示。有人可以解释一下这个原因吗?
答案 0 :(得分:2)
我有同样的问题。我通过设置参数min_count = 1来解决它。
model = doc2vec.Doc2Vec(size=100)
成了
model = doc2vec.Doc2Vec(size=100, min_count=1)
让我的问题消失!
我在doc2vec教程http://radimrehurek.com/2014/12/doc2vec-tutorial/
的评论中找到了答案