在tfidf向量中加入新文章以进行在线聚类

时间:2015-06-19 11:28:59

标签: cluster-analysis mahout k-means text-mining tf-idf

我正在使用java中的Lucene和Mahout库构建在线新闻聚类系统。我打算使用矢量空间模型和tfidf权重Kmeans(或模糊/ streamKmeans)。我的计划是:群集初始文章,根据较小的距离阈值将新文章分配给质心最接近的群集。与任何旧群集无关的剩余文档形成新数据(新主题)。单独将它们聚类在一起,并将这些临时聚类质心添加到先前的质心中。不太经常,执行完整批处理群集以重新集群整个文档集。在将新文章与质心进行比较以将其分配给旧群集时会出现问题。质心维度是初始数据中不同单词的数量。但新文章的维度不同。我正在关注Mahout in Action这本书。是否有任何方法或某种特征提取来处理这个问题。以下类似的链接仍未得到答复: https://stats.stackexchange.com/questions/41409/bag-of-words-in-an-online-configuration-for-classification-clustering https://stats.stackexchange.com/questions/123830/vector-space-model-for-online-news-clustering 提前致谢

1 个答案:

答案 0 :(得分:0)

根据需要增加维度,使用0作为新值。

从理论的角度来看,将向量空间视为无限维。