应用错误收集

我正在使用java中的Lucene和Mahout库构建在线新闻聚类系统。我打算使用矢量空间模型和tfidf权重Kmeans（或模糊/ streamKmeans）。我的计划是：群集初始文章，根据较小的距离阈值将新文章分配给质心最接近的群集。与任何旧群集无关的剩余文档形成新数据（新主题）。单独将它们聚类在一起，并将这些临时聚类质心添加到先前的质心中。不太经常，执行完整批处理群集以重新集群整个文档集。在将新文章与质心进行比较以将其分配给旧群集时会出现问题。质心维度是初始数据中不同单词的数量。但新文章的维度不同。我正在关注Mahout in Action这本书。是否有任何方法或某种特征提取来处理这个问题。以下类似的链接仍未得到答复： https://stats.stackexchange.com/questions/41409/bag-of-words-in-an-online-configuration-for-classification-clustering https://stats.stackexchange.com/questions/123830/vector-space-model-for-online-news-clustering 提前致谢

在tfidf向量中加入新文章以进行在线聚类

1 个答案: