如何使用标准化的TF-IDF进行K-means

时间:2012-07-01 11:26:21

标签: normalization cluster-analysis k-means tf-idf

我想要一些指导。我一直试图将我的项目的TF-IDF结果标准化。那么,我正在考虑 TF-IDF之后的下一步?我想对那些标准化的TF-IDF进行k-means聚类,但是时候已经了吗?在此之前我用Lucene创建了索引,如果可能的话我不想使用Mahout ,因为我使用的是Windows(不想使用cygwin)。

任何关于使用这些lucene-ed和tf-idf-ed结果做什么(以及如何做)k-means 的建议?我迷路了......

1 个答案:

答案 0 :(得分:0)

您需要查看'''球形k-means''',如下:

  • 常规k-means与欧几里德距离
  • 相关联
  • 常规k-means对高维稀疏数据不起作用