MATLAB中的归一化直方图不正确?

时间:2015-10-29 11:24:25

标签: matlab statistics probability-density

我有以下数据集:

X=[4.692
   6.328
   4.677
   6.836
   5.032
   5.269
   5.732
   5.083
   4.772
   4.659
   4.564
   5.627
   4.959
   4.631
   6.407
   4.747
   4.920
   4.771
   5.308
   5.200
   5.242
   4.738
   4.758
   4.725
   4.808
   4.618
   4.638
   7.829
   7.702
   4.659]; % Sample set

我使用最大似然法为此拟合了Pareto分布,我获得了以下图表:

enter image description here

下面的代码是绘制直方图的地方:

[N,edges,bin] = histcounts(X,'BinMethod','auto');
bin_middles=mean([edges(1:end-1);edges(2:end)]);
f_X_sample=N/trapz(bin_middles,N);
bar(bin_middles,f_X_sample,1);;

我这样做了吗?我检查了100次,帕累托分布确实是最佳的,但它似乎与直方图非常不同。是否有可能导致此错误的错误?谢谢!

1 个答案:

答案 0 :(得分:1)

我同意@ tashuhka的意见,您需要考虑如何对数据进行分级。

想象一下极端的情况,你把所有东西放在一个箱子里,然后试着把那个单点装到一个分配上。您的PDF看起来就像您的单方形条。分成两个箱子,现在适合仍然很糟糕,但至少有一个杆(可能)比另一个棒稍大,等等。在另一个极端,每个数据点都有自己的栏,条形图是只是一个只有一个计数的随机森林吧。

choosing an "optimal" bin size有许多不同的策略可以最大限度地减少二进制数,但最大化基础PDF的表示。

最后请注意,这里只有30分,所以你的另一个问题可能是你没有收集到足够的数据来确定基础PDF。