寻找有关如何确定我的模型输出数据分布与所观察到的数据集分布相似(如果是,则如何相似)的建议。
基本上,当我将其分布与观察到的数据进行比较时,我拥有一个均值回归的GBM模型,该模型提供了看似良好的结果。您可以在附图中并排查看其PDF。
PDF of observed and model data
两个数据集都很大(约600万个数据点),我开始怀疑这是问题的一部分...
我正在寻找一种验证数据集分布是否相似的方法。我尝试了两个样本的Kolmogorov-Smirnov 检验,两个样本的t检验,但是由于某些原因,他们两个都拒绝了Null假设(始终,即使使用不同的Alpha, )。在某些线程中,我读到这些测试应用于大型数据集时并不可靠,但是对此还没有达成共识。
我目前正在使用Matlab,但如有需要,我可以与其他人交流。
任何帮助将不胜感激!我主要是在寻找假设检验进行验证,但是如果您有其他想法,请不要退缩!