如何聚集不断发展的数据流

时间:2010-08-28 08:09:54

标签: algorithm machine-learning cluster-analysis information-retrieval tf-idf

我想逐步将文本文档作为数据流进行聚类,但似乎存在问题。大多数术语加权选项基于使用TF-IDF作为特征权重的向量空间模型。但是,在我们的情况下,现有属性的IDF随每个新数据点而变化,因此先前的聚类不再保持有效,因此不能应用任何流行的算法,如CluStream,CURE,BIRCH,它们假定固定的维度静态数据。 任何人都可以将我重定向到与此相关的任何现有研究或提出建议吗?谢谢 !

2 个答案:

答案 0 :(得分:4)

答案 1 :(得分:1)

这是我头脑中的一个想法:

您的输入数据是什么样的?我猜这至少与主题类似,所以你可以从基本短语词典开始,并将其用于idfApache Lucene是一个很棒的索引引擎。由于您有基本字典,因此您可以运行kmeans或任何您想要的内容。随着文档的出现,您将不得不以某种频率重建字典(可以将其卸载到另一个线程/机器/等),然后重新集群。

将数据索引在像Lucene这样的高性能灵活引擎中,即使在索引新文档时也可以运行查询。我敢打赌,如果你对different clustering algorithms做一些研究,你会发现一些好主意。

一些有趣的论文/链接:

  1. http://en.wikipedia.org/wiki/Document_classification
  2. http://www.scholarpedia.org/article/Text_categorization
  3. http://en.wikipedia.org/wiki/Naive_Bayes_classifier
  4. 如果没有更多信息,我无法理解为什么你不能每隔一段时间重新聚集一次。您可能想看看那里已有的一些推荐系统。