文档聚类基础知识

时间:2011-11-08 21:41:15

标签: cluster-analysis document k-means

所以,我一直在考虑这些概念,我的理解是非常基础的。信息检索似乎是野外很少涉及的话题......

我的问题源于群集文档的过程。假设我从一系列仅包含有趣词汇的文档开始。这里的第一步是什么?解析每个文档中的单词并创建一个巨大的“词袋”类型模型?然后,我是否继续为每个文档创建单词计数向量?如何使用K-means聚类等方法比较这些文档?

1 个答案:

答案 0 :(得分:1)

首先尝试Tf-idf 如果您阅读Python,请查看 “使用MiniBatchKmeans集群文本文档” 在scikit-learn中:
“一个示例,展示了scikit-learn如何用于聚类 使用词袋方法的主题文件“。
然后源中的feature_extraction/text.py有非常好的类。