应用错误收集

如何在Gensim中获取上下文单词列表

时间：2018-12-28 09:02:05

标签： python gensim word2vec fasttext

如何从预训练的快速文本模型中获取最频繁的上下文单词？

例如：对于单词“ football”和语料库["I like playing football with my friends"]

获取上下文词列表：['playing', 'with','my','like']

我尝试使用 model_wiki = gensim.models.KeyedVectors.load_word2vec_format("wiki.ru.vec") model.most_similar("блок")

但是我不满意

1 个答案:

答案 0 :(得分：0)

普通模型不保留原始语料库中的任何此类共现统计信息。它只具有经过训练的结果：每个单词的向量。

因此，most_similar()个向量的排名列表-并非完全是一起出现的单词，而是与之紧密相关的-是您从该文件中获得的最好的列表。

只有回到原始的训练语料库，才能为您提供所需的确切信息。