为什么我使用gensim LSI模型获得不同长度的向量?

时间:2018-05-25 03:57:04

标签: python nlp gensim

我尝试使用LSI对一些描述进行聚类。由于我所拥有的数据集太长,我基于从模型中获得的向量而不是使用相似性矩阵进行聚类,这需要太多的内存,如果我选择一个样本,则生成的矩阵不会; t对应一个正方形(这排除了使用MDS)。

然而,在运行模型并寻找向量之后,我在描述中得到了不同的向量长度。他们中的大多数都有300的长度(模型中的num_topics参数),但是少数,具有相同的描述,长度为299。

为什么会这样?有没有办法纠正它?

kubectl run config-server --image=config-server-image --port=8888
kubectl expose deployment config-server --type NodePort:31001

1 个答案:

答案 0 :(得分:0)

省略显式零,这就是为什么某些向量显得更短的原因。 来源:https://github.com/RaRe-Technologies/gensim/issues/2501