我在这上面写了一个空白。
我有两个数据集:
d1 = [(x1,y1), (x2,y2)...]
d2 = [(x1,y1), (x2,y2)...]
我想获得某种类型的统计值,可能类似于r值,它告诉我d2
与d1
的匹配程度。
答案 0 :(得分:2)
它取决于这两个载体是什么。你可能想要更具体。
如果它们类似于笛卡尔系统中的X-Y坐标,则距离相关可能是最合适的(http://en.wikipedia.org/wiki/Distance_correlation#Alternative_formulation:_Brownian_covariance)。
如果x
值相同且d1
根据特定模型(即线性模型)和{{y
在每个x
值下具有预期d2
1}}具有观察到的y
值,那么Pearson的r可能是一个很好的选择scipy.stats.pearsonr
(http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient)。
如果d1
和d2
都是相对频率数据(观察y
事件数值x
),那么某种类型的拟合度测试可能是正确的方向去。 scipy.stats.chisquare
,scipy.stats.chi2_contingency
,scipy.stats.ks_2samp
,仅举几例。