Gensim Word2Vec更改输入句子顺序?

时间:2016-04-22 10:08:04

标签: gensim word2vec

在gensim的文档window中,大小定义为

  

window 是句子中当前和预测单词之间的最大距离。

这应该意味着在查看上下文时它不会超出句子边界。正确?

我所做的是创建了一个包含数千条推文并选择了一个单词(q1)的文档,然后选择了大多数相似的单词q1(使用model.most_similar('q1'))。但是,如果我在输入文档中随机调整推文然后进行相同的实验(不改变word2vec参数),我会得到一个与q1不同的大多数相似单词。

如果只是看一下句子级别的信息,我们真的不明白为什么会这样吗?任何人都能解释一下吗?

编辑:添加模型参数和图表

使用的模型参数:

model1 = word2vec.Word2Vec(sents1 , size=100, window=5, min_count=5, iter=n_iter, sg=0)

图形: 为了绘制图形我做了什么,我运行word2vec与原始文档(D)和洗牌文档(D')的上述参数,并采取前10或20(两个条)most_similar('q')字到一个特定查询词q,并且当iter = 1,10,100时计算两组词之间的jaccard相似度得分。

似乎迭代次数增加,在D和D'上运行word2vec得到的两组词之间的相似词越来越少。

真的不明白为什么会这样或正在发生什么?

enter image description here

0 个答案:

没有答案