应用错误收集

文本聚类

时间：2017-06-13 14:53:00

标签： python text cluster-analysis dbscan

我有6个txt文件，其中包含有关相同域的问题，但是在不同的主题上（每个文件包含不同主题的问题），我的目标是对这些文件进行聚类，以便更好地了解相似性受试者。

我已经删除了停用词，应用了词干过程，应用了TF-IDF得分（我以数据帧的形式得到它，它产生了一个200字（列）和6个主题（行）的数据帧））但我很难知道如何应用kmeans或dbscan作为聚类方法，并最终如何评估我的聚类方法的性能..

感谢您的帮助..

1 个答案:

答案 0 :(得分：0)

对于6个科目，聚类在统计上没有根据。 k-means和DBSCAN都需要比这更大的样本量。

可能最有意义的方法是使用树形图。