标签: machine-learning cluster-analysis information-retrieval
用于群集文本文档的文档的其他功能表示是什么?我所知道的唯一代表是tf-idf。还有其他的吗?
答案 0 :(得分:0)
不是真正的加权(或它的极端版本),但我注意到修剪频繁的功能使得k-means的文档聚类更加稳定:例如,您可以尝试修剪所有非零的特征50%文件或更多。