我想知道解决以下问题的好策略或算法:
我拥有的是: 来自不同来源的一组新闻文章,每篇文章都有时间戳和新闻类别的加权矢量。
我想要的是: 来自不同来源的文章集群处理同一主题。
我基本上想复制google新闻的主要功能:提供主题并列出同一主题的不同新闻来源。
我已经对上面提到的新闻类别向量等文章有了很好的功能,希望我知道选择正确的策略,聚类算法和库来进行聚类。
聚类算法的特征应该是:
我从来没有进行过任何聚类,所以我不知道是否有一个聚类算法可以提供上述功能,或者是否有一些功能过于复杂或使聚类方式变慢以至于我需要找到一个解决方法对他们来说。
知道我正在将mahout视为集群库。是否已准备好使用mahout或可能与其他库进行主题检测的开源实现?
答案 0 :(得分:0)
我认为,如果您不知道群集的数量,以下文章是我在主题检测中遇到的最佳方法之一。