通过PV-DBOW学习的doc向量是否等于doc中包含的单词向量的平均值/总和?

时间:2018-08-14 23:55:08

标签: machine-learning nlp gensim word2vec doc2vec

我已经看到一些帖子说单词向量的平均值在某些任务中比通过PV_DBOW学习的doc向量更好。文档向量与单词向量的平均值/和之间是什么关系?我们可以说向量 d  大约等于其单词向量的平均值或总和? 谢谢!

1 个答案:

答案 0 :(得分:1)

不。 PV-DBOW向量是通过一个不同的过程来计算的,其基础是通过并发训练的浅层神经网络可以逐渐微调PV-DBOW向量以依次预测文本中的每个单词。

但是,简单的平均单词向量通常可以很好地用作文本的摘要向量。

因此,我们假设PV-DBOW矢量和简单平均矢量都具有相同的维数。由于它们是从完全相同的输入(相同的单词列表)引导的,并且神经网络(在其内部状态)没有比一组好的单词矢量更复杂的功能,因此矢量的性能下游评估可能不会有很大的不同。

例如,如果PV-DBOW模型的训练数据很少,或者元参数没有得到很好的优化,但是用于平均向量的词向量就非常适合您的领域,也许很简单-average-vector可以更好地完成某些下游任务。另一方面,基于足够领域文本训练的PV-DBOW模型可以提供比基于来自另一个领域的词向量的简单平均值更好的向量。

请注意,FastText的分类模式(以及Facebook StarSpace中的类似模式)实际上优化了词向量,以用作用于预测已知文本类的简单平均向量的一部分。因此,如果最终目标是要使用文本向量进行分类,并且您拥有一个带有已知标签的良好训练数据集,那么这些技术也值得考虑。