wordvector算法如何找到词之间的相似性?

时间:2019-07-09 13:03:20

标签: nlp recurrent-neural-network word2vec

背后的直觉是什么?有人可以简要解释为什么我们在wordvector网络架构中提取隐藏层的输出吗?

1 个答案:

答案 0 :(得分:0)

通常使用的词向量实际上来自神经网络的“投影层”。

该投影层实际上将单个单词索引(“单热”表示形式,从0到V-1的单个整数,其中V是已知唯一单词的数量)转换为 input 向量( N个非零连续尺寸的密集嵌入,其中N比V小得多)。

这些输入向量被馈送到一个浅层神经网络,该网络试图预测单词的相邻单词。

事实证明,当您迫使那些密集的嵌入(以及内部神经网络权重)在预测邻居时变得越来越好时,相关单词的单词向量会彼此越来越接近,这通常是关于如何有关他们。

此外,同时交错尝试为所有单词和训练示例执行此操作的趋势还倾向于在最终安排内创建有意义的“邻居”和“方向” –允许进行有趣的“含义算术”,从而使单词向量运算经常进行解决类似man : king :: woman : __?__的类比。