我有一些从雷达卫星图像中采样的数据,并希望对其进行一些统计测试。在此之前,我想进行常态测试,以确保我的数据是正常分布的。我的数据似乎是正态分布的,但是当我执行测试时,得到Pvalue为0,表明我的数据不是正常分布的。
我已将我的代码与输出和分布的直方图相关联(我对python相对较新,所以如果我的代码以任何方式笨拙而道歉)。任何人都可以告诉我,如果我做错了 - 我发现我的直方图很难相信我的数据不是正常分布的吗?
values = 'inputfile.h5'
f = h5py.File(values,'r')
dset = f['/DATA/DATA']
array = dset[...,0]
print('normality =', scipy.stats.normaltest(array))
max = np.amax(array)
min = np.amin(array)
histo = np.histogram(array, bins=100, range=(min, max))
freqs = histo[0]
rangebins = (max - min)
numberbins = (len(histo[1])-1)
interval = (rangebins/numberbins)
newbins = np.arange((min), (max), interval)
histogram = bar(newbins, freqs, width=0.2, color='gray')
plt.show()
这打印出:(41099.095955202931,0.0)。第一个元素是卡方值,第二个元素是pvalue。
我已经制作了我附上的数据图表。我认为可能因为我正在处理负值而导致问题因此我将值标准化但问题仍然存在。
答案 0 :(得分:11)
This question解释了为什么你得到这么小的p值。从本质上讲,正态性测试几乎总是拒绝非常大的样本大小的空值(例如,在你的左侧,你可以看到左侧的一些偏斜,在你的巨大样本大小的情况下绰绰有余)。
在您的情况下,实际上更有用的是绘制适合您数据的正态曲线。然后你可以看到正常曲线实际上是如何不同的(例如,你可以看到左侧的尾部是否确实变得太长)。例如:
from matplotlib import pyplot as plt
import matplotlib.mlab as mlab
n, bins, patches = plt.hist(array, 50, normed=1)
mu = np.mean(array)
sigma = np.std(array)
plt.plot(bins, mlab.normpdf(bins, mu, sigma))
(注意normed=1
参数:这可以确保将直方图标准化为总面积为1,这使其与正态分布的密度相当。)
答案 1 :(得分:5)
通常,当样本数小于50时,您应该注意使用正常性测试。由于这些测试需要足够的证据来拒绝零假设,即数据的分布是正常的,并且当样本数量很少时,他们无法找到那些证据。
请记住,当您未能拒绝原假设时,并不意味着替代假设是正确的。
还有另一种可能性: 常态统计测试的一些实现将数据分布与标准正态分布进行比较。为了避免这种情况,我建议您对数据进行标准化,然后应用常态测试。