我正在分类客户的客户。但是,数据是不固定的,集群每天都在变化。
每天运行新群集以更新用户群集非常困难,因为Kmeans在标记群集方面不一致。
如果我们进行聚类,然后使用神经网络或XGBoost训练数据,然后向前简单地预测聚类。这有意义还是做事的好方法?
答案 0 :(得分:0)
是的,这确实是有道理的,当时这只是常规的分类任务。在进入神经网络之前,您应该已经为集群分配了足够的数据。
另一方面,为什么不预测而不是更新新点的聚类(尽管取决于您使用的技术,您仍可以在sklearn's docs中看到用于拟合和预测的单独方法)?请记住,神经网络将仅与输入(K-Means聚类)一样好,并且其预测可能与K-Means相似。
此外,NN更加复杂且难以训练,也许这些不应该是您的首选。
您也可以检查模糊聚类的想法,因为数据是可变的,因此可能更适合您的情况。也许自动编码器也可以作为获取潜在变量的一种方法。