应用错误收集

文档聚类基础知识

时间：2011-11-08 21:41:15

标签： cluster-analysis document k-means

所以，我一直在考虑这些概念，我的理解是非常基础的。信息检索似乎是野外很少涉及的话题......

我的问题源于群集文档的过程。假设我从一系列仅包含有趣词汇的文档开始。这里的第一步是什么？解析每个文档中的单词并创建一个巨大的“词袋”类型模型？然后，我是否继续为每个文档创建单词计数向量？如何使用K-means聚类等方法比较这些文档？

1 个答案:

答案 0 :(得分：1)

首先尝试Tf-idf 如果您阅读Python，请查看 “使用MiniBatchKmeans集群文本文档” 在scikit-learn中：
“一个示例，展示了scikit-learn如何用于聚类使用词袋方法的主题文件“。
然后源中的feature_extraction/text.py有非常好的类。

mahout lucene文件聚类howto？
Objective-C中的文档聚类
文档聚类基础知识
文档聚类
文档聚类的对数似然相似性
Matlab中的文档聚类
python中的文档聚类
Python - 文档聚类
文档聚类的特征提取
文档聚类和可视化

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？