应用错误收集

我应该在使用K-Means的主题聚类中使用哪个指标？

时间：2013-05-04 03:26:45

标签： machine-learning k-means

我正在尝试实现k-means算法，输入是一堆文本文件，我想将它们聚类成不同的主题。

第一步是将这些文本文件转换为矢量样本。

我的问题是，我应该使用以下哪个指标？为什么？

Word是否出现。
字频。
TF-IDF。

1 个答案:

答案 0 :(得分：1)

最好的方法可能是为每个文档使用大约50个左右的TF-IDF术语（不一定是50，你应该试验这个数字）。由于high dimensionality，使用完整的单词出现向量可能不会给你带来好的结果。

或者，我建议您浏览Latent Dirichlet Allocation并使用每个文档的主题比例作为要聚类的功能。