我一直在阅读有关神经网络以及CBOW和Skip-Gram如何工作的内容,但我无法弄明白一件事:如何生成单词向量本身?
在我看来,我总是使用这些方法来计算权重矩阵,我使用单词vector来调整它,我很难理解我是如何得到单词向量的。
当我发现Rumelhart论文时,我认为我会在那里找到答案,但我得到的只是同样的事情:计算错误,将预期的输出与我找到的输出进行比较并调整模型。但谁是我的预期产量?我是怎么得到的?
例如,Omer Levy和Yoav Goldberg以一种完美清晰的方式(在稀疏和显式词表示中的语言规则)中解释了显式向量空间表示如何工作,但我无法找到关于如何对词进行分布式表示的解释的工作原理。