给出一组数据值,我试图获得最好的理论分布,以很好地描述数据。经过几天的研究,我想出了以下python代码。
import numpy as np
import csv
import pandas as pd
import scipy.stats as st
import math
import sys
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt
def fit_to_all_distributions(data):
dist_names = ['fatiguelife', 'invgauss', 'johnsonsu', 'johnsonsb', 'lognorm', 'norminvgauss', 'powerlognorm', 'exponweib','genextreme', 'pareto']
params = {}
for dist_name in dist_names:
try:
dist = getattr(st, dist_name)
param = dist.fit(data)
params[dist_name] = param
except Exception:
print("Error occurred in fitting")
params[dist_name] = "Error"
return params
def get_best_distribution_using_chisquared_test(data, params):
histo, bin_edges = np.histogram(data, bins='auto', normed=False)
number_of_bins = len(bin_edges) - 1
observed_values = histo
dist_names = ['fatiguelife', 'invgauss', 'johnsonsu', 'johnsonsb', 'lognorm', 'norminvgauss', 'powerlognorm', 'exponweib','genextreme', 'pareto']
dist_results = []
for dist_name in dist_names:
param = params[dist_name]
if (param != "Error"):
# Applying the SSE test
arg = param[:-2]
loc = param[-2]
scale = param[-1]
cdf = getattr(st, dist_name).cdf(bin_edges, loc=loc, scale=scale, *arg)
expected_values = len(data) * np.diff(cdf)
c , p = st.chisquare(observed_values, expected_values, ddof=number_of_bins-len(param))
dist_results.append([dist_name, c, p])
# select the best fitted distribution
best_dist, best_c, best_p = None, sys.maxsize, 0
for item in dist_results:
name = item[0]
c = item[1]
p = item[2]
if (not math.isnan(c)):
if (c < best_c):
best_c = c
best_dist = name
best_p = p
# print the name of the best fit and its p value
print("Best fitting distribution: " + str(best_dist))
print("Best c value: " + str(best_c))
print("Best p value: " + str(best_p))
print("Parameters for the best fit: " + str(params[best_dist]))
return best_dist, best_c, params[best_dist], dist_results
然后我通过以下方式测试此代码,
a, m = 3., 2.
values = (np.random.pareto(a, 1000) + 1) * m
data = pd.Series(values)
params = fit_to_all_distributions(data)
best_dist_chi, best_chi, params_chi, dist_results_chi = get_best_distribution_using_chisquared_test(values, params)
由于数据点是使用Pareto分布生成的,因此应该返回pareto作为具有足够大p值(p> 0.05)的最佳拟合分布。
但这就是我得到的输出。
Best fitting distribution: genextreme
Best c value: 106.46087793622216
Best p value: 7.626303538461713e-24
Parameters for the best fit: (-0.7664124294696955, 2.3217378846757164, 0.3711562696710188)
实施卡方拟合优度检验有什么问题吗?
答案 0 :(得分:1)
用于绘制随机数的Pareto函数与用于拟合数据的Pareto函数不同。
第一个来自numpy,他们声明
从指定的Pareto II或Lomax分布中抽取样本 形状。
Lomax或Pareto II分布是移位的Pareto分布。 可以从Lomax获得经典的帕累托分布 通过加1并乘以比例参数m进行分布。
您用来拟合的pareto function是来自Scipy的那个,我想他们使用了不同的定义:
以上概率密度以“标准化”形式定义。 要移动和/或缩放分布,请使用loc和scale 参数。
答案 1 :(得分:0)
Python卡方拟合优度检验(https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chisquare.html)提到““ Delta的自由度”:调整p值的自由度。p值是使用卡方计算的自由度为k-1-ddof的分布,其中k为观察到的频率数。ddof的默认值为0。“
因此,您的代码应按以下方式更正。
c , p = st.chisquare(observed_values, expected_values, ddof=len(param))