Question

我尝试使用LSI对一些描述进行聚类。由于我所拥有的数据集太长，我基于从模型中获得的向量而不是使用相似性矩阵进行聚类，这需要太多的内存，如果我选择一个样本，则生成的矩阵不会; t对应一个正方形（这排除了使用MDS）。

然而，在运行模型并寻找向量之后，我在描述中得到了不同的向量长度。他们中的大多数都有300的长度（模型中的num_topics参数），但是少数，具有相同的描述，长度为299。

为什么会这样？有没有办法纠正它？

kubectl run config-server --image=config-server-image --port=8888
kubectl expose deployment config-server --type NodePort:31001

Answer 1

省略显式零，这就是为什么某些向量显得更短的原因。来源：https://github.com/RaRe-Technologies/gensim/issues/2501