Question

在gensim的文档window中，大小定义为

window 是句子中当前和预测单词之间的最大距离。

这应该意味着在查看上下文时它不会超出句子边界。正确？

我所做的是创建了一个包含数千条推文并选择了一个单词（q1）的文档，然后选择了大多数相似的单词q1（使用model.most_similar('q1')）。但是，如果我在输入文档中随机调整推文然后进行相同的实验（不改变word2vec参数），我会得到一个与q1不同的大多数相似单词。

如果只是看一下句子级别的信息，我们真的不明白为什么会这样吗？任何人都能解释一下吗？

编辑：添加模型参数和图表

使用的模型参数：

model1 = word2vec.Word2Vec(sents1 , size=100, window=5, min_count=5, iter=n_iter, sg=0)

图形：为了绘制图形我做了什么，我运行word2vec与原始文档（D）和洗牌文档（D＆＃39;）的上述参数，并采取前10或20（两个条）most_similar('q')字到一个特定查询词q，并且当iter = 1,10,100时计算两组词之间的jaccard相似度得分。

似乎迭代次数增加，在D和D＆＃39;上运行word2vec得到的两组词之间的相似词越来越少。

真的不明白为什么会这样或正在发生什么？