我遇到这个问题:我有两组随机数据(双打data1
和data2
数组),我还有另一个随机数据点(单双)价值dataI
)。
如何判断dataI
是否更适合data1
或data2
设置?
答案 0 :(得分:0)
为了解决这个问题,您必须对生成两个数据集的过程做出一些假设。最简单的是每个数据集都是从高斯分布中提取的,每个分布的均值和方差不同。根据您对问题的了解,做出其他假设是完全合理的。如果您对此问题有更多说明,我们可以提供帮助。
班级(即哪组)概率p(c_i|x)
仅为p(x|c_i) p(c_i)/(p(x|c_1) p(c_1) + p(x|c_2) p(c_2))
。在高斯假设下,p(x|c_i)
只是G(x;mu_i, sigma_i)
,其中G
是高斯密度函数。您可以将每组的均值和方差估计为样本均值和样本方差。 p(c_i)
是类先验,即每个类中数据的比例。
在为每个类(其中i = 1或i = 2)计算p(c_i|x)
后,您可以确定x
来自具有最大p(c_i|x)
的类。这基本上假设两类错误分类的损失或成本相等。如果存在不同的错误分类成本,您可以应用成本矩阵并以最低预期成本进行分配。如果你有兴趣,我可以解释一下。
"混合建模的一般主题"与此相关。