Numpy:比较两个健身数据集

时间:2013-11-29 20:34:15

标签: python numpy data-fitting

我在这上面写了一个空白。

我有两个数据集:

d1 = [(x1,y1), (x2,y2)...] 
d2 = [(x1,y1), (x2,y2)...]

我想获得某种类型的统计值,可能类似于r值,它告诉我d2d1的匹配程度。

1 个答案:

答案 0 :(得分:2)

它取决于这两个载体是什么。你可能想要更具体。

如果它们类似于笛卡尔系统中的X-Y坐标,则距离相关可能是最合适的(http://en.wikipedia.org/wiki/Distance_correlation#Alternative_formulation:_Brownian_covariance)。

如果x值相同且d1根据特定模型(即线性模型)和{{y在每个x值下具有预期d2 1}}具有观察到的y值,那么Pearson的r可能是一个很好的选择scipy.stats.pearsonrhttp://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient)。

如果d1d2都是相对频率数据(观察y事件数值x),那么某种类型的拟合度测试可能是正确的方向去。 scipy.stats.chisquarescipy.stats.chi2_contingencyscipy.stats.ks_2samp,仅举几例。