我正在尝试实现k-means算法,输入是一堆文本文件,我想将它们聚类成不同的主题。
第一步是将这些文本文件转换为矢量样本。
我的问题是,我应该使用以下哪个指标?为什么?
答案 0 :(得分:1)
最好的方法可能是为每个文档使用大约50个左右的TF-IDF术语(不一定是50,你应该试验这个数字)。由于high dimensionality,使用完整的单词出现向量可能不会给你带来好的结果。
或者,我建议您浏览Latent Dirichlet Allocation并使用每个文档的主题比例作为要聚类的功能。