我试图聚集大约一百万个对象,每个对象具有不同长度的数据点,通常小于100.这些特征将是观察的日期和每个对象的ID值(让&#39 ; s说跑步者(名字)和他们在不同种族的时间)。我想在这些数据上运行minibatch k-means,但我也希望算法根据第三个特征采用分层样本,让我们说美国国家认为跑步者来自。有没有办法在minibatchkmeans功能中实施这样的采样?
如果没有,有没有办法采取分层样本,然后以某种方式将它们传递给函数?我想到了这一点,但似乎如果我采用分层样本并将它们传递给基本k-means算法,我将无法将样本聚合在一起并为每个对象获得一个标签。有什么建议吗?