我应该在使用K-Means的主题聚类中使用哪个指标?

时间:2013-05-04 03:26:45

标签: machine-learning k-means

我正在尝试实现k-means算法,输入是一堆文本文件,我想将它们聚类成不同的主题。

第一步是将这些文本文件转换为矢量样本。

我的问题是,我应该使用以下哪个指标?为什么?

  1. Word是否出现。
  2. 字频。
  3. TF-IDF。

1 个答案:

答案 0 :(得分:1)

最好的方法可能是为每个文档使用大约50个左右的TF-IDF术语(不一定是50,你应该试验这个数字)。由于high dimensionality,使用完整的单词出现向量可能不会给你带来好的结果。

或者,我建议您浏览Latent Dirichlet Allocation并使用每个文档的主题比例作为要聚类的功能。