从文档主题矩阵对文档进行聚类

时间:2019-07-03 13:31:54

标签: machine-learning scikit-learn nlp aws-comprehend

一个非常基本的问题和新手问题。我有一个文档主题矩阵,并且希望按主题对相似的文档进行聚类。最好的过程是什么?欢迎提供示例代码。

一些背景信息,我能够使用pandas.pivot_table并运行sklearn.cluster.KMeans将下面的CSV转换为矩阵。我没有认为产生正确的结果,它考虑了来自文档名的数字标签作为进行聚类的轴。

以CSV格式采样文档主题结果集

argv[65]

0 个答案:

没有答案