从非均匀数据创建均匀分布的样本

时间:2017-08-29 00:21:47

标签: statistics downsampling subsampling statistical-sampling

如果数据集具有非均匀分布(高度峰值),我想重新采样以创建具有近似均匀分布的新数据集。我的方法:

  1. 将数据分成垃圾箱。
  2. 目标箱水平=所有箱中每个箱的最小样本数。
  3. 随机删除样本,直到每个bin计数=目标bin级别。
  4. 有更好的技术吗?

1 个答案:

答案 0 :(得分:1)

我们知道,对于统一分布,我们有

mean =(a + b)/ 2

方差=(b-a)^ 2/12

所以你可以用这些参数从均匀分布构造这些和样本,你可以设置a = min(数据)和b = max(数据)或者a = mean(lowest_bin)和b = mean(highest_bin) ) 或类似的东西。您希望如何设置a和b取决于您的数据以及您想要完成的任务