我想要一些指导。我一直试图将我的项目的TF-IDF结果标准化。那么,我正在考虑 TF-IDF之后的下一步?我想对那些标准化的TF-IDF进行k-means聚类,但是时候已经了吗?在此之前我用Lucene创建了索引,如果可能的话我不想使用Mahout ,因为我使用的是Windows(不想使用cygwin)。
任何关于使用这些lucene-ed和tf-idf-ed结果做什么(以及如何做)k-means 的建议?我迷路了......
答案 0 :(得分:0)
您需要查看'''球形k-means''',如下: