我正在使用gensim UITextField
。我想知道是否有任何有效的方法来从doc2vec了解词汇量。一种粗略的方法是计算单词的总数,但如果数据很大(1GB或更多),那么这将不是一种有效的方法。
答案 0 :(得分:7)
如果model
是您经过培训的Doc2Vec模型,那么在应用min_count
后,幸存词汇表中的唯一字标记数量可从以下网址获得:
len(model.wv.vocab)
经过培训的文件标签数量可从以下网址获得:
len(model.docvecs)
答案 1 :(得分:0)
vocab的返回数据类型是字典。使用keys()如下:
model.wv.vocab.keys()
这应该返回单词列表。