我对word2vec算法有疑问。事实上,我的问题是训练语料库中句子的顺序是否重要。例如,给定两个训练语料库:
CorpusA: 句子1.句子2.句子3。
CorpusB: 句子3.句子1.句子2。
word2vec的结果会有所不同吗?
提前致谢
答案 0 :(得分:1)
句子顺序会影响从文本语料库中学习的嵌入,因为大多数word2vec实现都是使用SGD训练的。
回答你的问题 - 是的,word2vec的结果不同。
如果语料库中的句子顺序对您很重要,我认为word2vec不是正确的算法。请记住,单词的输出可能因多种原因而有所不同,其中很少有 -
为了获得更好的结果,我们对训练数据进行了多个时期,这在您的情况下是不可能的