有时,数据不是来自单个发行版,而是来自多个发行版。
例如,y = 0.4*X + 0.6*Y
,y
有40%的机会来自分发X
,有60%的机会来自分发Y
。可在此处找到介绍:http://www.r-bloggers.com/a-brief-introduction-to-mixture-distributions/。
问题是,鉴于数据集,有没有什么好方法可以让它们适合python
?
我找到了关于R
:http://www.r-bloggers.com/fitting-mixture-distributions-with-the-r-package-mixtools/的教程,但没有找到关于python
的任何内容。
答案 0 :(得分:2)
如果你的分布是高斯分布,那么scikit-learn有一些很好的方法适合混合分布,所谓的高斯混合模型。 有一个很好的解释here。 他们还使用期望最大化,就像链接中提到的R包一样。