用于主题检测的策略和聚类算法

时间:2012-08-01 09:31:46

标签: cluster-analysis mahout

我想知道解决以下问题的好策略或算法:

我拥有的是: 来自不同来源的一组新闻文章,每篇文章都有时间戳和新闻类别的加权矢量。

我想要的是: 来自不同来源的文章集群处理同一主题。

我基本上想复制google新闻的主要功能:提供主题并列出同一主题的不同新闻来源。

我已经对上面提到的新闻类别向量等文章有了很好的功能,希望我知道选择正确的策略,聚类算法和库来进行聚类。

聚类算法的特征应该是:

  1. 没有固定数量的集群,(我事先不知道有多少集群 主题出现在我的文章集中)。
  2. 有效地将新文章映射到现有群集,或者创建新群集 文章不适合现有的集群。
  3. 考虑相似文章的时间戳。
  4. 解散群集,如果要过时并从基础文章集中删除。
  5. 我从来没有进行过任何聚类,所以我不知道是否有一个聚类算法可以提供上述功能,或者是否有一些功能过于复杂或使聚类方式变慢以至于我需要找到一个解决方法对他们来说。

    知道我正在将mahout视为集群库。是否已准备好使用mahout或可能与其他库进行主题检测的开源实现?

1 个答案:

答案 0 :(得分:0)

我认为,如果您不知道群集的数量,以下文章是我在主题检测中遇到的最佳方法之一。

http://www.uni-weimar.de/medien/webis/research/events/tir-08/tir08-papers-final/wartena08-topic-detection-by-clustering-keywords.pdf