应用错误收集

如何聚集不断发展的数据流

时间：2010-08-28 08:09:54

标签： algorithm machine-learning cluster-analysis information-retrieval tf-idf

我想逐步将文本文档作为数据流进行聚类，但似乎存在问题。大多数术语加权选项基于使用TF-IDF作为特征权重的向量空间模型。但是，在我们的情况下，现有属性的IDF随每个新数据点而变化，因此先前的聚类不再保持有效，因此不能应用任何流行的算法，如CluStream，CURE，BIRCH，它们假定固定的维度静态数据。任何人都可以将我重定向到与此相关的任何现有研究或提出建议吗？谢谢！

2 个答案:

答案 0 :(得分：4)

你看过

吗？

TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams

答案 1 :(得分：1)

这是我头脑中的一个想法：

您的输入数据是什么样的？我猜这至少与主题类似，所以你可以从基本短语词典开始，并将其用于idf。 Apache Lucene是一个很棒的索引引擎。由于您有基本字典，因此您可以运行kmeans或任何您想要的内容。随着文档的出现，您将不得不以某种频率重建字典（可以将其卸载到另一个线程/机器/等），然后重新集群。

将数据索引在像Lucene这样的高性能灵活引擎中，即使在索引新文档时也可以运行查询。我敢打赌，如果你对different clustering algorithms做一些研究，你会发现一些好主意。

一些有趣的论文/链接：

http://en.wikipedia.org/wiki/Document_classification
http://www.scholarpedia.org/article/Text_categorization
http://en.wikipedia.org/wiki/Naive_Bayes_classifier

如果没有更多信息，我无法理解为什么你不能每隔一段时间重新聚集一次。您可能想看看那里已有的一些推荐系统。