应用错误收集

时间：2010-08-31 18:32:06

标签： cluster-analysis

我正在做一些关于如何将文章聚集成“新闻报道”的新闻。

在这里看一下以前关于这个问题的问题，我经常看到它建议简单地从一篇文章中提取一个单词的向量，如果它们在文章的某些部分（例如标题），则更多地加权一些单词，然后使用类似k-means算法的东西来聚类文章。

但这导致了几个问题：

用k-means，你怎么知道k应该是多少？在动态新闻环境中，您可能会有不同数量的故事，并且您不会事先知道文章集合中有多少故事。
使用分层聚类算法，您如何确定将哪些聚类用作故事？您将在树的底部有一些集群，这些集群只是单个文章，您显然不想使用这些集群，并且树的根目录中包含所有文章的集群，这也是您不想要的......但是你怎么知道它们之间的哪些星团应该被用来代表故事呢？
最后，使用k-means或hierarchal算法，我读过的大多数文献似乎都假设您有一个预设的文档集合，您想要聚类，并将它们全部聚集在一起。但是，你经常会有新文章进入的情况如何。怎么了？你是否必须从头开始集中所有文章，现在还有一个？这就是为什么我想知道是否有方法可以让你在不重新聚类的情况下“添加”文章。我无法想象这是非常有效的。

答案 0 :(得分：3)

我在一家初创公司工作过：这是一个新闻文章的增量集群引擎。我们的算法基于本文：使用文档索引图（http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851）进行Web文档聚类。为我们每天10K篇文章做得很好。

它有两个主要优点： 1）它是增量的，它解决了你必须处理传入文章流的问题（而不是一次性聚集所有） 2）它使用基于短语的建模，而不仅仅是单词和＃34;这导致更高的准确性。

Google搜索会弹出http://www.similetrix.com，他们可能会找到您正在寻找的内容。

答案 1 :(得分：2)

我会搜索自适应K-means聚类算法。有一个很好的研究专门讨论你描述的问题。这是一个paper（pdf）