我使用gensim库创建word2vec模型。它包含函数predict_output_words()
,据我了解如下:
例如,我有一个训练有素的模型:“无政府主义从单一的特定世界观出发,并不提供固定的学说,而是作为一种哲学而动荡不定。”
然后我使用
model.predict_output_words(context_words_list=['Anarchism', 'does', 'not', 'offer', 'a', 'fixed', 'body', 'of', 'from', 'a', 'single', 'particular', 'world', 'view', 'instead', 'fluxing'], topn=10)
。
在这种情况下,我能否获得/预测正确的单词或省略的单词“教义”?
这是正确的方法吗?请详细解释此功能。
答案 0 :(得分:0)
我想知道您是否看过predict_output_word
的文档?
报告给定的中心词的概率分布 上下文词作为训练模型的输入。
要回答有关“教义”一词的具体问题-在很大程度上取决于您作为上下文列出的单词中,最有可能出现的10个单词之一是“教义”。这意味着它必须在用于训练模型的语料库中相对频繁地发生。同样,由于“教义”似乎并不是经常使用的单词之一,因此其他单词很有可能在上下文中出现的可能性更高。因此,如果仅根据给定上下文的单词的返回概率,则在这种情况下可能最终无法预测“教义”。