词向量方向是否具有普遍性?

时间:2015-06-12 04:09:01

标签: nlp word2vec

我最近一直在尝试使用Word2Vec,我注意到在浏览论坛时很多其他人也在自己的数据库中创建自己的载体。

这让我对数据库中的向量如何看待以及向量是否采用通用方向感到好奇吗?

据我所知,矢量是根据语料库中的上下文创建的。所以从这个意义上说,也许你不会期望单词在数据库中具有相同的方向。但是,如果文档的语言是不变的,那么不同数据库中的上下文应该至少有些相似(不包括像银行(钱)和(河)银行这样的模糊词)。如果它们有些相似,似乎有理由认为,当我们看到更常见的单词时,它们的方向可能会收敛?

1 个答案:

答案 0 :(得分:1)

如评论中所述,"方向"在这种情况下,这不是一个定义明确的概念。传统的单词向量空间每个术语都有一个维度。

为了使单词向量兼容,它们需要具有相同的术语顺序。在不同的矢量集合之间通常不是这种情况,除非您使用完全相同的算法以完全相同的顺序从完全相同的文档构建它们。

你可以解释"取向"作为"具有相同术语的相同顺序的矢量"但是三维几何平行已经很紧张了。避免这个术语可能会更好。

在已知语言中给出两个来自合理代表性输入的向量集合,最常用的术语可能具有相似的分布,因此您可能可以准确地导出从一个表示到另一个表示的映射(参见Zipf's Law) 。回到long tail的罕见术语,您肯定无法识别任何有用的映射。