如何从预训练的快速文本模型中获取最频繁的上下文单词?
例如:
对于单词“ football”和语料库["I like playing football with my friends"]
获取上下文词列表:['playing', 'with','my','like']
我尝试使用
model_wiki = gensim.models.KeyedVectors.load_word2vec_format("wiki.ru.vec")
model.most_similar("блок")
但是我不满意
答案 0 :(得分:0)
普通模型不保留原始语料库中的任何此类共现统计信息。它只具有经过训练的结果:每个单词的向量。
因此,most_similar()
个向量的排名列表-并非完全是一起出现的单词,而是与之紧密相关的-是您从该文件中获得的最好的列表。
只有回到原始的训练语料库,才能为您提供所需的确切信息。