与给定句子最相关的术语,nltk word2vec

时间:2018-12-03 09:11:59

标签: python nltk word2vec

具有训练有素的word2vec模型,是否有办法检查词汇中的哪个单词与整个句子最“相关”?

我正在寻找与

类似的东西
model.wv.most_similar("the dog is on the table")

这可能会导致[“ dog”,“ table”]

1 个答案:

答案 0 :(得分:0)

most_similar()方法可以将多个单词作为输入,最好将其作为命名参数positive。 (这与“正例”相对应,“负例”也可以通过negative参数来提供,在要求most_similar()解决类比问题时很有用。)< / p>

当它收到多个单词时,它返回的结果最接近所提供的所有单词的平均值。这可能与整个句子有些相关,但是,所有单词向量的平均值是一种概括句子的相当弱的方法。

多个单词应作为字符串列表提供,而不是由空格分隔的单词的原始字符串。因此,例如:

sims = model.wv.most_similar(positive=['the', 'dog', 'is', 'on', 'the', 'table'])