应用错误收集

参数“ size”在gensim.model.Word2Vec（sentence，size）中意味着什么？

时间：2018-08-10 19:23:45

标签： python nlp gensim word2vec word-embedding

我刚刚开始学习单词嵌入和gensim，我尝试了此code 。在本文的可视化过程中，它说我们需要PCA才能将高维向量转换为低维。现在，我们在Word2Vec方法中有一个参数“ size”，所以为什么我们不能使用PCA将该大小设置为等于2。因此，我尝试这样做并比较两个图形（一个具有100个大小，另一个具有2个大小），结果却大不相同。现在我很困惑这个“尺寸”所描绘的是什么？向量的大小如何影响这一点？

这是我使用100作为尺寸时得到的。

这是我使用2作为尺寸时得到的。

1 个答案:

答案 0 :(得分：1)

因此，首先您要应用两种完全不同的算法。这就是为什么您获得不同结果的原因。

size超参数的确是尺寸：

size（整数，可选）–单词向量的维数。

您可以看看here at the documentation.

您使用的尺寸数越多，理论上可以存储的信息越多。

因此，考虑到您只有两个维度，可以存储的信息内容非常有限。但是这里的问题还在于，w2v的尺寸空间设计得并不经济。因此，即使您的所有信息内容理论上都可以存储在50个维度上，但w2v并不是“非常有效”的。

相反，PCA被设计为在尺寸方面非常“节省空间”。这样做的目的是在减少尺寸时减少信息丢失。

因此，您要处理具有不同目标的两种非常不同的算法，这就是为什么要得到这些不同的结果的原因。因此，使用PCA将100维缩小为2维的w2v模型将比仅用2维训练的w2v模型显示更好的结果。