我正在使用R包mclust进行基于模型的区分函数分类。我对如何解释混合概率输出感到困惑,并希望得到明确的解释。
据我了解,使用Mclust()
函数对数据集进行聚类,您会得到一个混合概率向量,这些向量之和总计为1,这对应于分配给这些聚类的数据比例。群集数由G
命令控制。要了解这些估计值的变化,您可以使用MclustBootstrap运行引导程序,以获取这些比例估计值的置信区间。
但是,当使用MclustDA()
函数时,每个类都不只是一个集群,每个类都可以是它自己的高斯混合体,其最大数量由G
命令控制。因此,它将使每个 class 都具有多个高斯分布,从而使多个混合概率在类内总计为1。确实没有像我预期的那样在类之间的整体混合概率的输出。
cvMclustDA()
命令给出了总体的交叉验证错误率,但是我对是否可以更好地理解分配给每个班级的比例的变化或班级内分配的错误感兴趣,而不仅仅是整体。
有没有办法做到这一点?在对原始数据运行z
调用之后,是否可以使用predict()
矩阵来实现?还是通过引导原始数据的预测?