如何在使用Doc2vec后对集群结果进行整理?

时间:2017-08-28 11:31:30

标签: python scikit-learn cluster-analysis gensim doc2vec

我正在使用doc2vec来转换我的追随者在矢量表示中的前100条推文(比如说v1 ..... v100)。之后我使用矢量表示来做K-Means聚类。

model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2)

我可以看到群集0由某些值(比如v10,v12,v23,....)支配。我的问题是这些v10,v12 ......等代表什么。我可以推断出这些特定列集群特定的文档关键字。

3 个答案:

答案 0 :(得分:2)

不要使用个别变量。由于这些嵌入方式的训练方式,它们应该只进行一起分析。

对于首发,请找

  1. 与您的质心最相似的文档向量,以查看典型的集群成员
  2. 来自嵌入的最相似的术语向量,用于描述群集的典型词汇
  3. 注意距离,看看你的健康状况有多好。

答案 1 :(得分:0)

群集本身并不意味着具体。您可以拥有任意数量的集群,并且所有集群算法都会尝试在这些集群中分配所有向量。如果您了解所有推文并知道有多少不同的主题要分开,请尝试清理它们或在其中包含功能,以便聚类算法可以使用这些主题在您选择的群集中隔离它们。

此外,如果您的意思是主题建模,那么与群集不同,您也应该查看它。

答案 2 :(得分:0)

这些值表示您要在群集中表示的各个推文(或文档)的坐标。我假设v1到v100代表推文1到100的向量,否则这没有意义。所以如果假设群集0有v1,v5和v6,这意味着推文1,5和6带有向量表示v1,分别为v5和v6(或带有向量v1,v5和v6的推文作为其表示)属于簇0。