我正在尝试比较数据(黑色)和模型(颜色)。 [图。 1]
还有另一个例子[图2]。数据集和模型对于图1和图2是不同的。
在这两种情况下,似乎模型和数据之间存在重叠,但是,图2中的重叠/匹配更好。我想量化两种情况下数据和模型的相关性为了区分两个数字的“适合度”。我想知道我应该使用哪种(统计)方法来定量估计相关性。
答案 0 :(得分:0)
您可以先使用numpy.mean
计算每个数据集的重心,然后比较它们彼此的接近程度。
下一步是检查每个中心是否在另一个数据集的不确定性椭圆(http://www.visiondummy.com/2014/04/draw-error-ellipse-representing-covariance-matrix/)内。
最后,我建议使用像学生测试或f-test这样的假设测试。 scipy
中有一些方法可用于这类测试,只需查看文档