我一直在使用scikit-learn的Dirichlet Process高斯混合模型来聚类我的数据集。我一直在为此目的使用这个优秀的教程:http://blog.echen.me/2012/03/20/infinite-mixture-models-with-nonparametric-bayes-and-the-dirichlet-process/
最后,作者使用了一个数据集,该数据集使用营养价值(即总脂肪,维生素D,维生素C等)作为特征来分类食品。在实现算法之前,作者将这些特征规范化。规范化的重要性是什么?数据集中的每个项目是否都需要具有高斯分布的特征集?这是一个潜在的假设吗?
任何帮助将不胜感激。谢谢!
答案 0 :(得分:0)
Dirichlet过程高斯混合模型是高斯混合模型的无限极限,因此假设数据的高斯分布。回顾高斯混合模型的生成过程。然而,Dirichlet过程混合物模型本身的配方与观察分布无关。
数据的标准化,例如如果正确地参数化模型的基本分布,则不需要z-score。如果在您使用的实现中无法实现,则需要进行标准化。