应用错误收集

时间：2011-05-19 21:40:33

标签： complexity-theory information-retrieval similarity

此问题涉及在信息检索中对类似文档进行分组/聚类。

我有一套文件，D1，D2，.. Dn。对于每个文档，Di，我还有一组关键字Di_k1，Di_k2，...，Di_km。两个文档Di和Dj之间的相似性由涉及相关关键字的函数给出，即相似度（Di，Dj）= f（Di_K，Dj_K）。

现在，我想将这些文档中的每一个放入一组组/集群中，以便每个集群包含相似类型的文档，用于给定集群中存在的元素之间的相似性阈值。

一种简单的方法是查看我可能要避免的每一对页面，因为我拥有的文档数量相当大，以百万计。我正在阅读“信息检索简介”一书，但我没有找到任何可提及的可扩展算法。

我的问题是什么样的算法可以帮助我有效地聚类文档？我对算法的计算复杂性特别感兴趣。

提前感谢任何指示。

答案 0 :(得分：0)

好的，在我的头顶，您可以使用基于语言模型的方法。首先，使用机器学习为每个可能的类构建LM。比如说，一个二元组LM。然后，对于您看到的每个新文档，计算所有类的P（新文档|类）。选择具有最大概率的那个。使用贝叶斯规则来简化上述公式

答案 1 :(得分：0)

群集中所有文档之间的一个松弛相似性。选择一个任意中心并与中心相似。

复杂性

（n / avgClusterSize）*（n / 2）