我有以下数据集:
X=[4.692
6.328
4.677
6.836
5.032
5.269
5.732
5.083
4.772
4.659
4.564
5.627
4.959
4.631
6.407
4.747
4.920
4.771
5.308
5.200
5.242
4.738
4.758
4.725
4.808
4.618
4.638
7.829
7.702
4.659]; % Sample set
我使用最大似然法为此拟合了Pareto分布,我获得了以下图表:
下面的代码是绘制直方图的地方:
[N,edges,bin] = histcounts(X,'BinMethod','auto');
bin_middles=mean([edges(1:end-1);edges(2:end)]);
f_X_sample=N/trapz(bin_middles,N);
bar(bin_middles,f_X_sample,1);;
我这样做了吗?我检查了100次,帕累托分布确实是最佳的,但它似乎与直方图非常不同。是否有可能导致此错误的错误?谢谢!
答案 0 :(得分:1)
我同意@ tashuhka的意见,您需要考虑如何对数据进行分级。
想象一下极端的情况,你把所有东西放在一个箱子里,然后试着把那个单点装到一个分配上。您的PDF看起来就像您的单方形条。分成两个箱子,现在适合仍然很糟糕,但至少有一个杆(可能)比另一个棒稍大,等等。在另一个极端,每个数据点都有自己的栏,条形图是只是一个只有一个计数的随机森林吧。
choosing an "optimal" bin size有许多不同的策略可以最大限度地减少二进制数,但最大化基础PDF的表示。
最后请注意,这里只有30分,所以你的另一个问题可能是你没有收集到足够的数据来确定基础PDF。