处理EM实现中的空组件以进行GMM学习

时间:2014-11-29 16:41:21

标签: matlab cluster-analysis mixture-model

我正在尝试在MATLAB中使用EM从头开始学习高斯混合模型。该项目需要稍后对标准GMM模型进行一些修改,这就是为什么我没有使用现成的实现,如VLFeat或Stats Toolbox。推出实施将是一种学习体验,并且可以在以后轻松定制。

具体而言,为具有球形协方差的GMM编码EM。

  1. 处理空簇。当GMM的某些组件未分配任何数据时,我无法处理此案例 - 它们的后验概率质量为零或可忽略不计。当定义了大量集群时会出现这种情况。处理这种情况的标准方法是什么?

  2. 直观地说,我会选择协方差最高的组件,并将其一半数据分配给空组件。

  3. 我的问题是:在EM实施中是否存在一种标准且有原则的处理方式(我还没有通过Google找到)?

1 个答案:

答案 0 :(得分:1)

不应出现GMM中的空组件。

通常,您进行软分配,因此至少只有一小部分对象 保留在每个组件中。这就是为什么你需要EM的收敛阈值。