我有一组使用gensim doc2vec生成的文档向量(150维的~500K向量)。我希望聚类类似的文档,我想生成一个n * n相似度矩阵,我可以运行我的聚类算法。
我使用gensim.similarities尝试了此链接https://github.com/RaRe-Technologies/gensim/issues/140的说明,但500k记录的输出为500k * 150矩阵。我不明白输出。不应该是500k * 500k?我错过了什么吗?
答案 0 :(得分:3)
这是您正在查看的嵌入。每个文档150个维向量。
不,你不想要计算相似度矩阵。
你做过数学吗?每双500k x 500k x 8字节/ 2.这个矩阵有足够的主存储器(超过1 TB)吗?计算需要多长时间?您接下来要运行什么样的聚类算法, 需要多长时间?
首先从较小的数据开始,然后找到一种有效的方法。然后估算扩展到整个数据所需的时间。不要先缩放,只是为了发现你不知道自己在做什么。