我正在阅读论文
单词和短语的分布式表示及其组合性。
这很有意思,但我真的很好奇参数'否定'之间的关系。和最后的表现。我个人认为最终的表现可能会随着负面的增加而变得更好,直到某些价值。因为我们用来进行比较的阴性样本越多,我们就应该得到更好的理论结果。当然,在某些方面之前,性能不会变得更好。我是对的吗?
答案 0 :(得分:1)
更多负面的例子意味着更多的模型调整正在发生,每个目标都在进行中。单词训练 - 例子。因此,在完成更多工作的情况下,为了某些目的,模型将会有所改善。似乎是合理的。
但是这些额外的计算需要更多的培训时间 - 因此增加该参数的价值可以与其他选择权衡,这也可能提供培训时间的改进。例如,增加window
或语料库上的训练迭代次数也会在时间成本上合理地改进模型。
有趣的是,更多负面的例子倾向于偏向大多数单词的坐标位置,这意味着"云"矢量不以原点为中心。并且,至少有一篇最近的论文提出了消除这种偏差的最后一步 - 转换最终坐标以恢复原点的全局平均值 - 可以改善字向量'某些任务的实用性。
此外,最初的Word2Vec论文指出,对于大型语料库,较少的否定示例可能是足够的或最佳的。 'Distributed Representations of Words and Phrases and their Compositionality'注释的第2.2节,"我们的实验表明,5-20范围内的k值对小型训练数据集很有用,而对于大型数据集,k可以小到2-5。 #34; (我甚至在大型语料库中看到了可接受的结果,只有一个反面的例子。)
因此,尝试使用不同的negative
值是值得的,并且有些理由相信更多示例可以提供帮助,但它不会自动成为"更多更好的& #34;,特别是对于较大的语料库,较少的负面例子可能就足够或甚至是最优的。