我在我的患者数据集上应用了像k-mean,k-medoid和DBSCAN这样的聚类算法。对于每个算法,RapidMiner生成聚类模型(质心表和图形等)和聚类集(显示哪些示例是哪个聚类的一部分)。现在我想要一些方法,当一个新病人来时,我想根据之前训练的模型为他分配一个集群。我很担心这样做的方式..就是这样,我可能是错的
为新患者的每个属性值 - 来自质心表的属性值 总结患者属性的所有差异并采取平均值。
然后为他分配相对于该患者的avg最小的聚类。
如果这是正确的方式,那么我将如何重新聚集,即当一个新患者来到我们的算法时,分配他的群集,这是意思。质心移动然后我必须重新聚集每个记录插入。如何在我的场景中处理这个?
答案 0 :(得分:0)
如果要将它们应用于流,请查看在线群集算法。
存在诸如在线k-means变体之类的内容。
通常,您确实希望避免重新聚类所有现有示例,因为这不适用于无限数据流和有限内存。
通常最好不尝试获得与运行经典聚类算法完全相同的结果,但要学会忍受一些错误。毕竟,所有这些算法无论如何都只是启发式算法。只要你的近似值很好,近似启发式就没有错误。