如何从gensim word2vec模型中检索n个最频繁的单词?据我了解,频率和计数是不同的,因此我不能使用object.count方法。
我需要从我的word2vec模型中生成n个最常用单词的列表。
编辑:
我尝试了以下操作:
w2c = dict()
for item in model.wv.vocab:
w2c[item]=model.wv.vocab[item].count
w2cSorted=dict(sorted(w2c.items(), key=lambda x: x[1],reverse=True))
w2cSortedList = list(w2cSorted.keys())
我最初的猜测是使用上面的代码,但这实现了count方法。我不确定这是否代表最常用的词
谢谢
答案 0 :(得分:4)
每个语音输入的.count
属性是在初始词汇调查中看到的该单词的计数。因此,按此排序并采用最高的{count
单词,将为您提供最频繁的单词。
但是,为了提高效率,通常的做法是将已知单词的有序列表从最常见到最不常见。您可以在列表model.wv.index2entity
上查看此内容,因此可以按model.wv.index2entity[:100]
检索100个最常见的单词。