我正在做一些关于如何将文章聚集成“新闻报道”的新闻。
在这里看一下以前关于这个问题的问题,我经常看到它建议简单地从一篇文章中提取一个单词的向量,如果它们在文章的某些部分(例如标题),则更多地加权一些单词,然后使用类似k-means算法的东西来聚类文章。
但这导致了几个问题:
用k-means,你怎么知道k应该是多少?在动态新闻环境中,您可能会有不同数量的故事,并且您不会事先知道文章集合中有多少故事。
使用分层聚类算法,您如何确定将哪些聚类用作故事?您将在树的底部有一些集群,这些集群只是单个文章,您显然不想使用这些集群,并且树的根目录中包含所有文章的集群,这也是您不想要的......但是你怎么知道它们之间的哪些星团应该被用来代表故事呢?
最后,使用k-means或hierarchal算法,我读过的大多数文献似乎都假设您有一个预设的文档集合,您想要聚类,并将它们全部聚集在一起。但是,你经常会有新文章进入的情况如何。怎么了?你是否必须从头开始集中所有文章,现在还有一个?这就是为什么我想知道是否有方法可以让你在不重新聚类的情况下“添加”文章。我无法想象这是非常有效的。
答案 0 :(得分:3)
我在一家初创公司工作过:这是一个新闻文章的增量集群引擎。我们的算法基于本文:使用文档索引图(http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851)进行Web文档聚类。为我们每天10K篇文章做得很好。
它有两个主要优点: 1)它是增量的,它解决了你必须处理传入文章流的问题(而不是一次性聚集所有) 2)它使用基于短语的建模,而不仅仅是单词和#34;这导致更高的准确性。
Google搜索会弹出http://www.similetrix.com,他们可能会找到您正在寻找的内容。
答案 1 :(得分:2)
我会搜索自适应K-means聚类算法。有一个很好的研究专门讨论你描述的问题。这是一个paper(pdf)