我有6个txt文件,其中包含有关相同域的问题,但是在不同的主题上(每个文件包含不同主题的问题),我的目标是对这些文件进行聚类,以便更好地了解相似性受试者。
我已经删除了停用词,应用了词干过程,应用了TF-IDF得分(我以数据帧的形式得到它,它产生了一个200字(列)和6个主题(行)的数据帧))但我很难知道如何应用kmeans或dbscan作为聚类方法,并最终如何评估我的聚类方法的性能..
感谢您的帮助..
答案 0 :(得分:0)
对于6个科目,聚类在统计上没有根据。 k-means和DBSCAN都需要比这更大的样本量。
可能最有意义的方法是使用树形图。