小组类似文件

时间:2011-05-19 21:40:33

标签: complexity-theory information-retrieval similarity

此问题涉及在信息检索中对类似文档进行分组/聚类。

我有一套文件,D1,D2,.. Dn。对于每个文档,Di,我还有一组关键字Di_k1,Di_k2,...,Di_km。两个文档Di和Dj之间的相似性由涉及相关关键字的函数给出,即相似度(Di,Dj)= f(Di_K,Dj_K)。

现在,我想将这些文档中的每一个放入一组组/集群中,以便每个集群包含相似类型的文档,用于给定集群中存在的元素之间的相似性阈值。

一种简单的方法是查看我可能要避免的每一对页面,因为我拥有的文档数量相当大,以百万计。我正在阅读“信息检索简介”一书,但我没有找到任何可提及的可扩展算法。

我的问题是什么样的算法可以帮助我有效地聚类文档?我对算法的计算复杂性特别感兴趣。

提前感谢任何指示。

2 个答案:

答案 0 :(得分:0)

好的,在我的头顶,您可以使用基于语言模型的方法。首先,使用机器学习为每个可能的类构建LM。比如说,一个二元组LM。然后,对于您看到的每个新文档,计算所有类的P(新文档|类)。选择具有最大概率的那个。使用贝叶斯规则来简化上述公式

答案 1 :(得分:0)

群集中所有文档之间的一个松弛相似性。选择一个任意中心并与中心相似。

复杂性

(n / avgClusterSize)*(n / 2)