此问题涉及在信息检索中对类似文档进行分组/聚类。
我有一套文件,D1,D2,.. Dn。对于每个文档,Di,我还有一组关键字Di_k1,Di_k2,...,Di_km。两个文档Di和Dj之间的相似性由涉及相关关键字的函数给出,即相似度(Di,Dj)= f(Di_K,Dj_K)。
现在,我想将这些文档中的每一个放入一组组/集群中,以便每个集群包含相似类型的文档,用于给定集群中存在的元素之间的相似性阈值。
一种简单的方法是查看我可能要避免的每一对页面,因为我拥有的文档数量相当大,以百万计。我正在阅读“信息检索简介”一书,但我没有找到任何可提及的可扩展算法。
我的问题是什么样的算法可以帮助我有效地聚类文档?我对算法的计算复杂性特别感兴趣。
提前感谢任何指示。
答案 0 :(得分:0)
好的,在我的头顶,您可以使用基于语言模型的方法。首先,使用机器学习为每个可能的类构建LM。比如说,一个二元组LM。然后,对于您看到的每个新文档,计算所有类的P(新文档|类)。选择具有最大概率的那个。使用贝叶斯规则来简化上述公式
答案 1 :(得分:0)
群集中所有文档之间的一个松弛相似性。选择一个任意中心并与中心相似。
复杂性
(n / avgClusterSize)*(n / 2)