传统的聚类方法(批处理模式)和增量聚类

时间:2015-09-27 10:05:41

标签: machine-learning apache-spark cluster-analysis data-mining k-means

传统聚类方法(批处理模式)与增量聚类方法之间的区别在于后者处理添加到数据收集的新数据而不必执行完全重新聚类的能力。这允许在群集期间动态跟踪数据库的更新。

为了通过使用apache spark实时检测重复记录,我希望:

1)将我的数据库聚类成聚类(以获得模型(学习))。

2)每个数据到达(数据流)我想使用增量聚类(增量学习),以便用旧数据聚类新数据。

我认为在我的情况下,在mllib中预设的kmeans流不会让我受益,所以我想使用经典的k手段(批处理模式)来获取我的模型,之后我将使用增量学习但我不知道愿望我应该使用它,任何想法

0 个答案:

没有答案