doc2vec聚类n * n文档之间的相似性

时间:2017-11-08 04:47:30

标签: cluster-analysis gensim doc2vec

我有一组使用gensim doc2vec生成的文档向量(150维的~500K向量)。我希望聚类类似的文档,我想生成一个n * n相似度矩阵,我可以运行我的聚类算法。

我使用gensim.similarities尝试了此链接https://github.com/RaRe-Technologies/gensim/issues/140的说明,但500k记录的输出为500k * 150矩阵。我不明白输出。不应该是500k * 500k?我错过了什么吗?

1 个答案:

答案 0 :(得分:3)

这是您正在查看的嵌入。每个文档150个维向量。

不,你想要计算相似度矩阵。

你做过数学吗?每双500k x 500k x 8字节/ 2.这个矩阵有足够的主存储器(超过1 TB)吗?计算需要多长时间?您接下来要运行什么样的聚类算法, 需要多长时间?

首先从较小的数据开始,然后找到一种有效的方法。然后估算扩展到整个数据所需的时间。不要先缩放,只是为了发现你不知道自己在做什么。