我有一个关于使用聚类方法与使用分布拟合相同数据的问题。
假设我有一个包含2个要素(feat_A和feat_B)的数据集,并且假设我使用聚类算法将数据划分为最佳数量的聚类...比如说。
我的目标是为每个输入数据[feat_Ai,feat_Bi]分配一个点属于集群1 2 3的概率(或类似的东西)。
a。集群的第一种方法:
我将数据聚集在3个聚类中,并根据距该聚类中心的距离为每个点分配属于聚类的概率。
b。使用混合模型的第二种方法:
我将混合模型或混合物分布拟合到数据中。使用期望最大化(EM)算法将数据拟合到分布,该算法针对每个观察分配每个组分密度的后验概率。通过选择最大化后验概率的组件来分配聚类。
在我的问题中,我发现聚类中心(或者如果使用方法 b。,我适合模型)和数据的子样本。然后我必须为很多其他数据分配概率......我想知道在存在新数据的情况下哪种方法更适合用于仍然有意义的分配。
我会选择聚类方法,例如kmean,因为:
如果新数据来自与用于创建混合模型的分布不同的分布,则分配可能不正确。
对于新数据,后验概率会发生变化。
聚类方法最小化聚类的方差以便找到一种最佳分离边界,混合模型考虑数据的方差来创建模型(不确定将成为的聚类)形成的以最佳方式分离。)
有关数据的更多信息:
不应假设特征依赖。 Feat_A表示身体活动的持续时间.Bra_B步骤计数原则上我们可以说,活动持续时间越长,步数越大,但并非总是如此。
请帮助我思考,如果您有任何其他意见,请告诉我..