我刚刚开始学习单词嵌入和gensim,我尝试了此code 。在本文的可视化过程中,它说我们需要PCA才能将高维向量转换为低维。现在,我们在Word2Vec方法中有一个参数“ size”,所以为什么我们不能使用PCA将该大小设置为等于2。 因此,我尝试这样做并比较两个图形(一个具有100个大小,另一个具有2个大小),结果却大不相同。现在我很困惑这个“尺寸”所描绘的是什么?向量的大小如何影响这一点?
这是我使用100作为尺寸时得到的。
这是我使用2作为尺寸时得到的。
答案 0 :(得分:1)
因此,首先您要应用两种完全不同的算法。这就是为什么您获得不同结果的原因。
size
超参数的确是尺寸:
size(整数,可选)–单词向量的维数。
您可以看看here at the documentation.
您使用的尺寸数越多,理论上可以存储的信息越多。
因此,考虑到您只有两个维度,可以存储的信息内容非常有限。但是这里的问题还在于,w2v的尺寸空间设计得并不经济。因此,即使您的所有信息内容理论上都可以存储在50个维度上,但w2v并不是“非常有效”的。
相反,PCA被设计为在尺寸方面非常“节省空间”。这样做的目的是在减少尺寸时减少信息丢失。因此,您要处理具有不同目标的两种非常不同的算法,这就是为什么要得到这些不同的结果的原因。 因此,使用PCA将100维缩小为2维的w2v模型将比仅用2维训练的w2v模型显示更好的结果。