gensim函数预测输出字

时间:2018-06-29 16:10:47

标签: python tensorflow nlp word2vec gensim

我使用gensim库创建word2vec模型。它包含函数predict_output_words(),据我了解如下:

例如,我有一个训练有素的模型:“无政府主义从单一的特定世界观出发,并不提供固定的学说,而是作为一种哲学而动荡不定。”

然后我使用

model.predict_output_words(context_words_list=['Anarchism', 'does', 'not', 'offer', 'a', 'fixed', 'body', 'of', 'from', 'a', 'single', 'particular', 'world', 'view', 'instead', 'fluxing'], topn=10)

在这种情况下,我能否获得/预测正确的单词或省略的单词“教义”?

这是正确的方法吗?请详细解释此功能。

1 个答案:

答案 0 :(得分:0)

我想知道您是否看过predict_output_word的文档?

  

报告给定的中心词的概率分布   上下文词作为训练模型的输入。

要回答有关“教义”一词的具体问题-在很大程度上取决于您作为上下文列出的单词中,最有可能出现的10个单词之一是“教义”。这意味着它必须在用于训练模型的语料库中相对频繁地发生。同样,由于“教义”似乎并不是经常使用的单词之一,因此其他单词很有可能在上下文中出现的可能性更高。因此,如果仅根据给定上下文的单词的返回概率,则在这种情况下可能最终无法预测“教义”。