word2vec:训练语料库中的句子顺序

时间:2016-04-07 11:45:46

标签: java word2vec

我对word2vec算法有疑问。事实上,我的问题是训练语料库中句子的顺序是否重要。例如,给定两个训练语料库:

CorpusA: 句子1.句子2.句子3。

CorpusB: 句子3.句子1.句子2。

word2vec的结果会有所不同吗?

提前致谢

1 个答案:

答案 0 :(得分:1)

句子顺序会影响从文本语料库中学习的嵌入,因为大多数word2vec实现都是使用SGD训练的。

回答你的问题 - 是的,word2vec的结果不同。

如果语料库中的句子顺序对您很重要,我认为word2vec不是正确的算法。请记住,单词的输出可能因多种原因而有所不同,其中很少有 -

  • 向量的随机初始化
  • 负抽样
  • 多线程
  • 机器的浮点精度

为了获得更好的结果,我们对训练数据进行了多个时期,这在您的情况下是不可能的