为什么Doc2vec为同一文本提供了2个不同的向量

时间:2018-05-16 04:32:06

标签: python nlp word2vec gensim doc2vec

我正在使用Doc2vec从单词中获取向量。 请参阅我的以下代码:

from gensim.models.doc2vec import TaggedDocument
f = open('test.txt','r')

trainings = [TaggedDocument(words = data.strip().split(","),tags = [i]) for i,data in enumerate(f)


model = Doc2Vec(vector_size=5,  epochs=55, seed = 1, dm_concat=1)

model.build_vocab(trainings)
model.train(trainings, total_examples=model.corpus_count, epochs=model.epochs)

model.save("doc2vec.model")

model = Doc2Vec.load('doc2vec.model')
for i in range(len(model.docvecs)):
    print(i,model.docvecs[i])

我有一个test.txt文件,其内容有2行,这两行的内容相同(它们是" a") 我用doc2vec训练并得到了模型,但问题是虽然2行的内容是相同的,但doc2vec给了我2个不同的向量。

0 [ 0.02730868  0.00393569 -0.08150548 -0.04009786 -0.01400406]
1 [ 0.03916578 -0.06423566 -0.05350181 -0.00726833 -0.08292392]

我不知道为什么会这样。我认为这些载体会是一样的。 你能解释一下吗?如果我想为同一个词创建相同的向量,在这种情况下我该怎么办?

2 个答案:

答案 0 :(得分:4)

Doc2Vec(和Word2Vec)算法存在固有的随机性,例如:初始向量已经是随机的,即使对于相同的句子也是不同的。您可以对model.train电话发表评论并亲自查看。

详细信息如果您感兴趣:在构建词汇后立即初始化向量:在您的情况下,它是model.build_vocab(...)调用,后者又调用model.reset_doc_weights()方法(查看gensim/models/doc2vec.py)的源代码,无论句子是什么,它都会随机初始化所有向量。如果此时你重置初始化并分配相等的向量,它们就不应再发散了。

理论上,如果训练相同的句子足够长,即使初始化程度不同,算法也应收敛到相同的向量。但实际上,它不会发生,而且我认为你不应该担心这一点。

答案 1 :(得分:3)

@Maxim的答案对于算法使用的固有随机性是正确的,但是这个例子还有其他问题:

  • Doc2Vec在微小的玩具大小的示例中没有给出有意义的结果。当向量只是大量不同的对比训练上下文的结果时,这些向量只能获得良好的相对含义。您的2行数据集经过55个训练周期,实际上只是为模型提供了1个独特的文本,110次。

  • 即使您明智地将矢量大小减小到很小的数字(5)以反映微小的数据,它仍然是一个太大的模型,只有2个例子,容易完成'过度拟合'。该模型可以随机地为行#1分配向量[1.0,0.0,0.0,0.0,0.0]和行#2 [0.0,1.0,0.0,0.0,0.0]。然后,通过它的所有训练,只更新其内部权重(从来不是doc-vectors本身),但仍然实现内部单词预测,就像在真实场景中一样好或更好,其中一切都是逐步更新的,因为那里有#39在模型中有足够的自由状态,从来没有任何必要的竞争/压缩/权衡迫使两个句子在相似的地方收敛。 (有很多解决方案,而且大多数都不涉及任何有用的通用化学习。只有大型数据集,迫使模型在建模多个示例之间进行拉锯战以及可以通过权衡来创造学习。)

  • dm_concat=1是一种非默认的实验模式,需要更多数据进行训练,并导致更大/更慢的模型。除非你确定 - 并且可以证明结果 - 它有助于你的使用,所以请避免使用它。

即使修复了这些问题,Doc2Vec中的完全确定性也不会自动完成 - 你不应该真的试图消除它。 (运行之间的小抖动是该算法中基本差异的一个有用信号/提示 - 如果您的训练/评估在如此小的差异中保持稳定,那么这是一个额外的指示,即它的功能。)