Gensim(word2vec)检索n个最常用的单词

时间:2018-12-04 21:31:57

标签: gensim

如何从gensim word2vec模型中检索n个最频繁的单词?据我了解,频率和计数是不同的,因此我不能使用object.count方法。

我需要从我的word2vec模型中生成n个最常用单词的列表。

编辑:

我尝试了以下操作:

w2c = dict()
for item in model.wv.vocab:
   w2c[item]=model.wv.vocab[item].count
w2cSorted=dict(sorted(w2c.items(), key=lambda x: x[1],reverse=True))
w2cSortedList = list(w2cSorted.keys())

我最初的猜测是使用上面的代码,但这实现了count方法。我不确定这是否代表最常用的词

谢谢

1 个答案:

答案 0 :(得分:4)

每个语音输入的.count属性是在初始词汇调查中看到的该单词的计数。因此,按此排序并采用最高的{count单词,将为您提供最频繁的单词。

但是,为了提高效率,通常的做法是将已知单词的有序列表从最常见到最不常见。您可以在列表model.wv.index2entity上查看此内容,因此可以按model.wv.index2entity[:100]检索100个最常见的单词。