在word2vec paper中,他们使用线性激活功能。我的理由可能是他们提供了足够的训练数据来学习单词嵌入,因此不需要非线性激活函数,我是否正确?
另外如果我们在隐藏层中使用非线性激活函数,那么我认为结果应该更好。那么为什么google使用线性激活函数来实现单词到向量?
答案 0 :(得分:2)
在我看来,大部分困惑来自于认为他们的模型完全线性。这不是真的,因为最终总是有一个softmax层。什么是线性的是之前的一切,这与NNLM不同。
请记住,所有单词表示方法的主要思想是预测邻居单词,即通过中心单词最大化上下文的总条件概率(反之亦然):
因此目标函数必然以最终的softmax层(或类似物)结束。我建议您阅读this post了解更多详情,它非常简短且写得很好。
你是对的,神经网络具有越多的非线性,它获得的灵活性越大,因此越接近目标分布。在这种情况下,他们认为额外的灵活性并没有得到回报:最终,他们获得了非常好的结果,这样可以将这种方法扩展到庞大的语料库,从而提供更好的结果。
旁注:线性回归根本不需要培训才能找到解决方案,有一个紧密的公式(尽管有大型矩阵存在技术上的困难)。