Python - 使用sklearn MDS类在2D中可视化Doc2Vec多维向量

时间:2016-07-20 06:25:25

标签: python multidimensional-array scikit-learn mds doc2vec

对于我的Doc2Vec训练模型的简单评估,我需要将400维向量转换为2维,并将文档可视化为一组节点,其中任意两个节点之间的距离与它们的相似性(高度相似的节点紧密相连)。

经过一番搜索后,我找到了MDS(多维缩放)和sklearn MDS库。

现在我有2.2M向量,每个向量都有400个维度,我不知道如何以最低的成本将它们传递给sklearn MDS函数以正确的语法。我知道在2.2M向量之间创建相似性矩阵是不可能的。

1 个答案:

答案 0 :(得分:0)

对于一个相当类似的任务,我发现降低Doc2Vec的维度(在我们的例子中从默认值100到30)对于任何类型的空间重建绝对至关重要,即使对于相对较小的数据集也可以在Macbook Pro上工作。

This是一个很好的起点(尽管有tSNE减少和过时的接口)。