单词向量是否意味着什么?

时间:2017-10-23 20:57:13

标签: machine-learning data-science word2vec text-analysis word-embedding

根据我的理解,单词向量仅用于与其他单词向量的关系。例如,“king”的单词vector减去“boy”的单词vector,应该给出一个接近“queen”的向量。

给定一个未知单词的向量,可以仅根据该向量的值来做出关于单词的假设吗?

2 个答案:

答案 0 :(得分:1)

单个坐标 - 例如300维向量的维#7等 - 没有易于解释的含义。

主要是相对于其他单词(邻域)的相对距离,以及相对于其他单词星座的相对方向(不考虑垂直坐标轴的方向,即可能是模糊可解释的,因为它们与自然语言或自然思维语义相关联。

此外,模型的预训练初始化以及大部分训练本身都使用随机化。因此,即使在完全相同的数据上,在重复训练运行时,单词也会在不同的坐标中结束。

在距离和方向方面,每次运行后得到的单词向量应该与对方有关的有用,但是像“描述季节的单词”或“有关的东西”这样的邻域在随后的运行中可能会出现非常不同的地方。只有一起训练的矢量才具有可比性。

(有一些受限制的word2vec变种试图强迫某些维度或方向对某些目的更有用,例如回答问题或检测上位词/下位词关系 - 但这需要额外的约束或对训练过程的输入。普通香草word2vec不会那么清晰可解释。)

答案 1 :(得分:0)

您无法根据单词向量的值对单词进行假设。单个单词向量本身不携带信息或含义,但仅包含与其他单词向量相关的含义。

计算使用诸如Word2Vec和GloVe等算法的单词向量,并依赖于序列中单词的共现。例如,Word2Vec使用两个向量的点积作为softmax函数的输入,该函数近似于这两个单词出现在同一序列中的条件概率。然后确定字向量,使得在相同上下文中频繁出现的字被映射到相似的向量。因此,单词向量捕获语法和语义信息。