Google新闻和Techmeme如何聚类相似的新闻?是否有任何熟知的算法用于实现这一目标?
感谢您的帮助。
提前致谢。
答案 0 :(得分:9)
基于内容对文本进行聚类的一种相当常见的方法是对单词向量使用Principle Component Analysis(n维向量,其中每个可能的单词代表一个维度,每个向量的大小,对于每个向量,是该特定文章中单词的出现次数),然后只是一个简单的聚类,如K-Means。
答案 1 :(得分:5)
算法基础是凝聚聚类或类似的东西。但最重要的是有一些启发式方法。例如,向量空间肯定由单词和短语(单词n-gram)组成。在严格的时间段内限制搜索也非常重要。识别名称,权衡标题和段落标题也是关键部分。
与切线相关的说明。如果您有兴趣查找近似重复的文章,那么有许多更容易实现的方法,例如描述here
的方法答案 2 :(得分:0)
有几种不同的方法可以做到这一点。标准是做一个“词袋”分析(加权TF-IDF),然后做余弦相似和k均值。
我在本文中取得了成功:http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851
关于它的好处是: 1)它是渐进的,这对新闻来说很好。使用标准k-means,您需要拥有整个数据集。有了新闻,你通常会随着时间推移到达。增量算法解决了这个问题。 2)它是基于短语的。所以它依赖于短语而不仅仅是单词。
最近,有些技术使用语义而不是单词(例如,通过从每篇文章中提取维基百科或DBPedia概念,并使用它而不仅仅是单词)。