machine-learning - 单词向量是否意味着什么？

单词向量是否意味着什么？

时间：2017-10-23 20:57:13

标签： machine-learning data-science word2vec text-analysis word-embedding

根据我的理解，单词向量仅用于与其他单词向量的关系。例如，“king”的单词vector减去“boy”的单词vector，应该给出一个接近“queen”的向量。

给定一个未知单词的向量，可以仅根据该向量的值来做出关于单词的假设吗？

2 个答案:

答案 0 :(得分：1)

单个坐标 - 例如300维向量的维＃7等 - 没有易于解释的含义。

主要是相对于其他单词（邻域）的相对距离，以及相对于其他单词星座的相对方向（不考虑垂直坐标轴的方向，即可能是模糊可解释的，因为它们与自然语言或自然思维语义相关联。

此外，模型的预训练初始化以及大部分训练本身都使用随机化。因此，即使在完全相同的数据上，在重复训练运行时，单词也会在不同的坐标中结束。

在距离和方向方面，每次运行后得到的单词向量应该与对方有关的有用，但是像“描述季节的单词”或“有关的东西”这样的邻域在随后的运行中可能会出现非常不同的地方。只有一起训练的矢量才具有可比性。

（有一些受限制的word2vec变种试图强迫某些维度或方向对某些目的更有用，例如回答问题或检测上位词/下位词关系 - 但这需要额外的约束或对训练过程的输入。普通香草word2vec不会那么清晰可解释。）

答案 1 :(得分：0)

您无法根据单词向量的值对单词进行假设。单个单词向量本身不携带信息或含义，但仅包含与其他单词向量相关的含义。

计算使用诸如Word2Vec和GloVe等算法的单词向量，并依赖于序列中单词的共现。例如，Word2Vec使用两个向量的点积作为softmax函数的输入，该函数近似于这两个单词出现在同一序列中的条件概率。然后确定字向量，使得在相同上下文中频繁出现的字被映射到相似的向量。因此，单词向量捕获语法和语义信息。