应用错误收集

时间：2017-11-08 04:47:30

标签： cluster-analysis gensim doc2vec

我有一组使用gensim doc2vec生成的文档向量（150维的~500K向量）。我希望聚类类似的文档，我想生成一个n * n相似度矩阵，我可以运行我的聚类算法。

我使用gensim.similarities尝试了此链接https://github.com/RaRe-Technologies/gensim/issues/140的说明，但500k记录的输出为500k * 150矩阵。我不明白输出。不应该是500k * 500k？我错过了什么吗？

答案 0 :(得分：3)

这是您正在查看的嵌入。每个文档150个维向量。

不，你不想要计算相似度矩阵。

你做过数学吗？每双500k x 500k x 8字节/ 2.这个矩阵有足够的主存储器（超过1 TB）吗？计算需要多长时间？您接下来要运行什么样的聚类算法，需要多长时间？

首先从较小的数据开始，然后找到一种有效的方法。然后估算扩展到整个数据所需的时间。不要先缩放，只是为了发现你不知道自己在做什么。