我正在使用Python的非参数测试来检查两个样本是否与从相同的基础父群体中抽取一致:kent$ awk '{gsub(/:/,"");$0++;gsub(/../,"&:");sub(/:$/,"")}7' <<< "22:33:99"
22:34:00
kent$ awk '{gsub(/:/,"");$0++;gsub(/../,"&:");sub(/:$/,"")}7' <<< "22:99:99"
23:00:00
kent$ awk '{gsub(/:/,"");$0++;gsub(/../,"&:");sub(/:$/,"")}7' <<< "22:99:88"
22:99:89
(2样本Kolmogorov-Smirnov),scipy.stats.ks_2samp
(Anderson - 对于k个样本的样本)和scipy.stats.anderson_ksamp
(2个样本的Mann-Whitney-Wilcoxon)。我的显着性阈值表明两个样本彼此显着不同是p = 0.01。
如果这三个测试返回极低的p值(有时像10 ^ -30或更低),那么我是否需要担心scipy函数出错?这些可笑的小p值是否可靠,我可以仅报告p <&lt;&lt; 0.01(p远低于我的门槛)?
答案 0 :(得分:3)
您不必担心scipy函数出现问题。 P值低即表示您的样本确实不太可能具有相同的父群体。
那就是说,如果你没想到这些发行版会有所不同,那么现在是确保你正在衡量你认为你正在测量的内容的好时机,也就是说你正在为正确的数据提供数据。
答案 1 :(得分:1)
可能导致不正确(太小)p值的常见错误(至少在生命科学中)是测试的独立性假设 - 测试通常假设观察结果(数据)样本中的点是独立的 - 被违反。例如,ManPad-Whitney的GraphPad checklist在“错误独立”下有这个。
作为参考,this 2010 paper查看了一期Nature Neuroscience(神经科学的顶级期刊)并发现“12%的论文有假复制,另有36%的人怀疑有假复制。” / p>
答案 2 :(得分:0)
嗯,你已经碰到了一个众所周知的显着性测试特征,即随着样本大小的增加,p值通常会变为零。如果零假设是假的(通常可以先验地确定),那么只需增加样本大小就可以得到你想要的p值。
我的建议是考虑它使分布有所不同的实际差异。尝试在成本方面量化,无论是实际(美元)还是抽象。然后设计一个测量值。