Question

我正在使用doc2vec来转换我的追随者在矢量表示中的前100条推文（比如说v1 ..... v100）。之后我使用矢量表示来做K-Means聚类。

model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2)

我可以看到群集0由某些值（比如v10，v12，v23，....）支配。我的问题是这些v10，v12 ......等代表什么。我可以推断出这些特定列集群特定的文档关键字。

Answer 1

不要使用个别变量。由于这些嵌入方式的训练方式，它们应该只进行一起分析。

对于首发，请找

Answer 2

群集本身并不意味着具体。您可以拥有任意数量的集群，并且所有集群算法都会尝试在这些集群中分配所有向量。如果您了解所有推文并知道有多少不同的主题要分开，请尝试清理它们或在其中包含功能，以便聚类算法可以使用这些主题在您选择的群集中隔离它们。

此外，如果您的意思是主题建模，那么与群集不同，您也应该查看它。

Answer 3

这些值表示您要在群集中表示的各个推文（或文档）的坐标。我假设v1到v100代表推文1到100的向量，否则这没有意义。所以如果假设群集0有v1，v5和v6，这意味着推文1,5和6带有向量表示v1，分别为v5和v6（或带有向量v1，v5和v6的推文作为其表示）属于簇0。