我想使用2个样本K-S测试来比较两个分布。 我正在使用python的(2.7)ks_2samp但我遇到了一些麻烦。
首先,我不明白我是否必须将数据作为参数放入我的数据或构建它们的累积分布。我猜第一个......
其次,当我在数据上使用ks_2samp时,我获得了看起来不真实的返回p值......
例如,对于几个看起来像这样的发行版: CDF of 2 datasets
ks_2samp返回: D值= 0.038629201101928384 P值= 0.0
这意味着分布不会从同一个分布(粗略地说)。我认为这些数据很奇怪......它看起来也很奇怪,比如“0.0”,因为通常任务给出的结果有很多小数...... 在输入中使用类似的数据我得到例如p值= 6.65e-136,实际上这很奇怪。
可能是什么问题?或者可以吗?
在我的数组中有很多“nans”,但我也在数据上运行ks_2samp,我屏蔽了nans,得到了相同的结果。所以我认为它并不关心...
非常感谢你!