应用错误收集

在我看来，大部分困惑来自于认为他们的模型完全线性。这不是真的，因为最终总是有一个softmax层。什么是线性的是之前的一切，这与NNLM不同。

请记住，所有单词表示方法的主要思想是预测邻居单词，即通过中心单词最大化上下文的总条件概率（反之亦然）：

因此目标函数必然以最终的softmax层（或类似物）结束。我建议您阅读this post了解更多详情，它非常简短且写得很好。

你是对的，神经网络具有越多的非线性，它获得的灵活性越大，因此越接近目标分布。在这种情况下，他们认为额外的灵活性并没有得到回报：最终，他们获得了非常好的结果，这样可以将这种方法扩展到庞大的语料库，从而提供更好的结果。

旁注：线性回归根本不需要培训才能找到解决方案，有一个紧密的公式（尽管有大型矩阵存在技术上的困难）。