新闻聚类

时间:2009-04-24 05:10:26

标签: algorithm cluster-analysis

Google新闻和Techmeme如何聚类相似的新闻?是否有任何熟知的算法用于实现这一目标?

感谢您的帮助。

提前致谢。

3 个答案:

答案 0 :(得分:9)

基于内容对文本进行聚类的一种相当常见的方法是对单词向量使用Principle Component Analysis(n维向量,其中每个可能的单词代表一个维度,每个向量的大小,对于每个向量,是该特定文章中单词的出现次数),然后只是一个简单的聚类,如K-Means。

答案 1 :(得分:5)

算法基础是凝聚聚类或类似的东西。但最重要的是有一些启发式方法。例如,向量空间肯定由单词和短语(单词n-gram)组成。在严格的时间段内限制搜索也非常重要。识别名称,权衡标题和段落标题也是关键部分。

与切线相关的说明。如果您有兴趣查找近似重复的文章,那么有许多更容易实现的方法,例如描述here

的方法

答案 2 :(得分:0)

有几种不同的方法可以做到这一点。标准是做一个“词袋”分析(加权TF-IDF),然后做余弦相似和k均值。

我在本文中取得了成功:http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851

关于它的好处是: 1)它是渐进的,这对新闻来说很好。使用标准k-means,您需要拥有整个数据集。有了新闻,你通常会随着时间推移到达。增量算法解决了这个问题。 2)它是基于短语的。所以它依赖于短语而不仅仅是单词。

最近,有些技术使用语义而不是单词(例如,通过从每篇文章中提取维基百科或DBPedia概念,并使用它而不仅仅是单词)。