所以,我一直在考虑这些概念,我的理解是非常基础的。信息检索似乎是野外很少涉及的话题......
我的问题源于群集文档的过程。假设我从一系列仅包含有趣词汇的文档开始。这里的第一步是什么?解析每个文档中的单词并创建一个巨大的“词袋”类型模型?然后,我是否继续为每个文档创建单词计数向量?如何使用K-means聚类等方法比较这些文档?
答案 0 :(得分:1)
首先尝试Tf-idf
如果您阅读Python,请查看
“使用MiniBatchKmeans集群文本文档”
在scikit-learn中:
“一个示例,展示了scikit-learn如何用于聚类
使用词袋方法的主题文件“。
然后源中的feature_extraction/text.py
有非常好的类。