标签: machine-learning scikit-learn nlp aws-comprehend
一个非常基本的问题和新手问题。我有一个文档主题矩阵,并且希望按主题对相似的文档进行聚类。最好的过程是什么?欢迎提供示例代码。
一些背景信息,我能够使用pandas.pivot_table并运行sklearn.cluster.KMeans将下面的CSV转换为矩阵。我没有认为产生正确的结果,它考虑了来自文档名的数字标签作为进行聚类的轴。
以CSV格式采样文档主题结果集
argv[65]