使用scikit-learn DPGMM时的假设

时间:2017-03-29 20:21:56

标签: machine-learning statistics scikit-learn bayesian

我一直在使用scikit-learn的Dirichlet Process高斯混合模型来聚类我的数据集。我一直在为此目的使用这个优秀的教程:http://blog.echen.me/2012/03/20/infinite-mixture-models-with-nonparametric-bayes-and-the-dirichlet-process/

最后,作者使用了一个数据集,该数据集使用营养价值(即总脂肪,维生素D,维生素C等)作为特征来分类食品。在实现算法之前,作者将这些特征规范化。规范化的重要性是什么?数据集中的每个项目是否都需要具有高斯分布的特征集?这是一个潜在的假设吗?

任何帮助将不胜感激。谢谢!

1 个答案:

答案 0 :(得分:0)

Dirichlet过程高斯混合模型是高斯混合模型的无限极限,因此假设数据的高斯分布。回顾高斯混合模型的生成过程。然而,Dirichlet过程混合物模型本身的配方与观察分布无关。

数据的标准化,例如如果正确地参数化模型的基本分布,则不需要z-score。如果在您使用的实现中无法实现,则需要进行标准化。