我正在使用doc2vec来转换我的追随者在矢量表示中的前100条推文(比如说v1 ..... v100)。之后我使用矢量表示来做K-Means聚类。
model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2)
我可以看到群集0由某些值(比如v10,v12,v23,....)支配。我的问题是这些v10,v12 ......等代表什么。我可以推断出这些特定列集群特定的文档关键字。
答案 0 :(得分:2)
不要使用个别变量。由于这些嵌入方式的训练方式,它们应该只进行一起分析。
对于首发,请找
答案 1 :(得分:0)
群集本身并不意味着具体。您可以拥有任意数量的集群,并且所有集群算法都会尝试在这些集群中分配所有向量。如果您了解所有推文并知道有多少不同的主题要分开,请尝试清理它们或在其中包含功能,以便聚类算法可以使用这些主题在您选择的群集中隔离它们。
此外,如果您的意思是主题建模,那么与群集不同,您也应该查看它。
答案 2 :(得分:0)
这些值表示您要在群集中表示的各个推文(或文档)的坐标。我假设v1到v100代表推文1到100的向量,否则这没有意义。所以如果假设群集0有v1,v5和v6,这意味着推文1,5和6带有向量表示v1,分别为v5和v6(或带有向量v1,v5和v6的推文作为其表示)属于簇0。