有没有办法从doc2vec模型中获取词汇量?

时间:2017-01-12 08:07:07

标签: gensim word2vec doc2vec

我正在使用gensim UITextField。我想知道是否有任何有效的方法来从doc2vec了解词汇量。一种粗略的方法是计算单词的总数,但如果数据很大(1GB或更多),那么这将不是一种有效的方法。

2 个答案:

答案 0 :(得分:7)

如果model是您经过培训的Doc2Vec模型,那么在应用min_count后,幸存词汇表中的唯一字标记数量可从以下网址获得:

len(model.wv.vocab)

经过培训的文件标签数量可从以下网址获得:

len(model.docvecs)

答案 1 :(得分:0)

vocab的返回数据类型是字典。使用keys()如下:

model.wv.vocab.keys()

这应该返回单词列表。