除了用于聚类的tf-idf之外的其他文件功能?

时间:2013-07-20 11:07:22

标签: machine-learning cluster-analysis information-retrieval

用于群集文本文档的文档的其他功能表示是什么?我所知道的唯一代表是tf-idf。还有其他的吗?

1 个答案:

答案 0 :(得分:0)

不是真正的加权(或它的极端版本​​),但我注意到修剪频繁的功能使得k-means的文档聚类更加稳定:例如,您可以尝试修剪所有非零的特征50%文件或更多。