应用错误收集

时间：2009-04-24 05:10:26

标签： algorithm cluster-analysis

Google新闻和Techmeme如何聚类相似的新闻？是否有任何熟知的算法用于实现这一目标？

感谢您的帮助。

提前致谢。

答案 0 :(得分：9)

基于内容对文本进行聚类的一种相当常见的方法是对单词向量使用Principle Component Analysis（n维向量，其中每个可能的单词代表一个维度，每个向量的大小，对于每个向量，是该特定文章中单词的出现次数），然后只是一个简单的聚类，如K-Means。

答案 1 :(得分：5)

算法基础是凝聚聚类或类似的东西。但最重要的是有一些启发式方法。例如，向量空间肯定由单词和短语（单词n-gram）组成。在严格的时间段内限制搜索也非常重要。识别名称，权衡标题和段落标题也是关键部分。

与切线相关的说明。如果您有兴趣查找近似重复的文章，那么有许多更容易实现的方法，例如描述here

的方法

答案 2 :(得分：0)

有几种不同的方法可以做到这一点。标准是做一个“词袋”分析（加权TF-IDF），然后做余弦相似和k均值。

关于它的好处是： 1）它是渐进的，这对新闻来说很好。使用标准k-means，您需要拥有整个数据集。有了新闻，你通常会随着时间推移到达。增量算法解决了这个问题。 2）它是基于短语的。所以它依赖于短语而不仅仅是单词。

最近，有些技术使用语义而不是单词（例如，通过从每篇文章中提取维基百科或DBPedia概念，并使用它而不仅仅是单词）。