我想逐步将文本文档作为数据流进行聚类,但似乎存在问题。大多数术语加权选项基于使用TF-IDF作为特征权重的向量空间模型。但是,在我们的情况下,现有属性的IDF随每个新数据点而变化,因此先前的聚类不再保持有效,因此不能应用任何流行的算法,如CluStream,CURE,BIRCH,它们假定固定的维度静态数据。 任何人都可以将我重定向到与此相关的任何现有研究或提出建议吗?谢谢 !
答案 0 :(得分:4)
答案 1 :(得分:1)
这是我头脑中的一个想法:
您的输入数据是什么样的?我猜这至少与主题类似,所以你可以从基本短语词典开始,并将其用于idf
。 Apache Lucene是一个很棒的索引引擎。由于您有基本字典,因此您可以运行kmeans或任何您想要的内容。随着文档的出现,您将不得不以某种频率重建字典(可以将其卸载到另一个线程/机器/等),然后重新集群。
将数据索引在像Lucene这样的高性能灵活引擎中,即使在索引新文档时也可以运行查询。我敢打赌,如果你对different clustering algorithms做一些研究,你会发现一些好主意。
一些有趣的论文/链接:
如果没有更多信息,我无法理解为什么你不能每隔一段时间重新聚集一次。您可能想看看那里已有的一些推荐系统。