文本分类,包括预处理

时间:2011-04-11 20:56:57

标签: cluster-analysis document-classification

如果时间不是一个因素,哪个是文档分类的最佳方法,我们不知道有多少个类?

2 个答案:

答案 0 :(得分:2)

在我的(不完整)知识中,如果你不知道有多少类,那么分层聚合聚类是最好的方法。所有其他聚类算法要么需要事先知道桶的数量,要么需要某种交叉验证或其他实验来确定合理数量的桶。

答案 1 :(得分:1)

交叉链接:请参阅SO上的how-do-i-determine-k-when-using-k-means-clustering