在gensim的文档window
中,大小定义为
window 是句子中当前和预测单词之间的最大距离。
这应该意味着在查看上下文时它不会超出句子边界。正确?
我所做的是创建了一个包含数千条推文并选择了一个单词(q1
)的文档,然后选择了大多数相似的单词q1
(使用model.most_similar('q1')
)。但是,如果我在输入文档中随机调整推文然后进行相同的实验(不改变word2vec参数),我会得到一个与q1
不同的大多数相似单词。
如果只是看一下句子级别的信息,我们真的不明白为什么会这样吗?任何人都能解释一下吗?
编辑:添加模型参数和图表
使用的模型参数:
model1 = word2vec.Word2Vec(sents1 , size=100, window=5, min_count=5, iter=n_iter, sg=0)
图形:
为了绘制图形我做了什么,我运行word2vec与原始文档(D)和洗牌文档(D')的上述参数,并采取前10或20(两个条)most_similar('q')
字到一个特定查询词q
,并且当iter = 1,10,100时计算两组词之间的jaccard相似度得分。
似乎迭代次数增加,在D和D'上运行word2vec得到的两组词之间的相似词越来越少。
真的不明白为什么会这样或正在发生什么?