nlp - Word2Vec的功能是否相互独立？

Word2Vec的功能是否相互独立？

时间：2018-05-17 02:11:29

标签： nlp word2vec text-classification word-embedding

我是NLP的新手并且正在学习Word2Vec。所以我并不完全理解Word2Vec的概念。

Word2Vec的功能是否相互独立？

例如，假设有一个100维的word2vec。那100个功能是否相互独立？换句话说，如果＆＃34;序列＆＃34;这些功能被改组了，那么word2vec的含义会改变吗？

2 个答案:

答案 0 :(得分：2)

Word2vec是一个密集的＆＃39;嵌入：个体维度通常不能独立解释。它只是＆＃39;邻居＆＃39;和＆＃39;方向＆＃39; （不限于100个正交轴尺寸）具有有用的含义。

所以，他们不是独立的＆＃39;统计意义上的彼此但是，您可以丢弃任何维度 - 例如，所有100维向量的最后50个维度 - 并且您仍然可以使用可用的单词向量。因此，从这个意义上讲，他们仍然是独立有用的。

如果你按照维度的顺序改变，对于集合中的每个向量都是一样的，那么你基本上只是旋转/反射所有向量。他们都有不同的坐标，但他们的相对距离是相同的，如果＆＃34;从单词A＆＃34;到单词B;过去模糊地指出一些人类可以理解的方面，比如＆＃34;大小＆＃34;，甚至在执行维度顺序洗牌之后，＆＃34;从单词A＆＃34;转向单词B;将意味着同样的事情，因为矢量＆＃34; thataway＆＃34; （在变换的坐标中）将与之前相同。

答案 1 :(得分：0)

这里首先要理解的是 word2Vec 是如何形式化的。 word2vec 模型摆脱了传统的单词表示，尝试将世界的含义编码为不同的特征。例如，让我们说英语词典中的每个单词都可以体现在一组 say '4' 特征中。特征可能是，比如说“f1”：“性别”，“f2”：“颜色”，“f3”：“气味”，“f4”：“经济”。

所以现在当写一个 word2vec 向量时，它表示它有多少特定特征的表现形式。让我们举个例子来理解这一点。考虑一个男人（V1），他很黑，不那么臭，不是很富有，也不是很穷。然后第一个特征，即性别被表示为 1（因为我们将 1 作为男性，-1 作为女性）。此处的第二个特征颜色为 -1，因为它与白色（我们将其视为 1）完全相反。气味和经济性相似，值为 0.3 和 0.4。现在考虑另一个人（V2），他也具有与第一个人相同的解剖结构和社会地位。那么他的word2vec向量也会类似。

V1=>[1,-1,0.3,0.4]

V2=>[1,-1,0.4,0.3]

这种表示帮助我们将单词表示为相互独立或正交的特征。正交性有助于基于一些数学运算找到相似性或不相似性，比如余弦点积。 word2vec 中数字的顺序很重要，因为每个数字都代表特定特征的权重：性别、颜色、气味、经济。所以改变位置会导致完全不同的向量