是否有可用于改善文档聚类结果的人工智能算法?聚类算法可以是分层算法或任何其他算法。
谢谢
答案 0 :(得分:5)
The Wikipedia article on document clustering包括由弗吉尼亚理工大学的Nicholas Andrews和Edward Fox撰写的2007年论文的链接,名为“Recent Developments in Document Clustering”。我不确定你会把它归类为“人工智能算法”,但扫描论文的内容表明他们看到了矢量空间模型,kmeans的扩展,生成算法,谱聚类,降维,基于相位的模型,以及对比分析。这是一个非常数学密集的处理,但他们小心地包括他们谈论的算法的参考。
答案 1 :(得分:2)
群集确实是AI域中的一种问题。如果你想降低一级,你可能会说它在机器学习领域。从这个意义上说,AI并没有改进文档聚类,而是解决了它! Dumbledad mentions一些基本的替代方案,但每次使用的数据类型可以通过不同的算法得到更好的处理。这个问题有很多基于k-means的方法。在这种情况下需要仔细播种。球形k-means(搜索Dhillon的论文)是一种简单而标准的方法。其他扩展程序为k-synthetic prototypes。
子空间聚类也是一个很好的尝试,一般来说,如果你想进一步“文档聚类”文献检查“在高维和稀疏数据空间中聚类”。