如何:将噪声应用于直方图以生成新的直方图

时间:2015-10-13 18:59:37

标签: math statistics histogram distribution probability

我正在处理一个问题,我需要使用一些双峰直方图。就像下面的例子一样。我使用这些直方图来训练神经网络以识别直方图上的双峰标准。我将这些直方图表示为数字向量,如下例所示:

8029, 41, 82, 177, 135, 255, 315, 591, 949, 456, 499, 688, 446, 733, 712, 1595, 2633, 3945, 6134, 9755, 9236, 11911, 11888, 9450, 13119, 8819, 5991, 4399, 6745, 2017, 3747, 1777, 2946, 1623, 2151, 454, 3015, 3176, 2211, 1080, 391, 580, 750

好吧,我有300个双峰直方图(双峰直方图的例子如下图所示),

Bimodal Histogram Sample

但要训练网络,最好有2000个直方图。我知道我可以通过在我所拥有的直方图上应用一些“噪音”来生成新的直方图。 A'noised'直方图仍然是双峰的,非常类似于它生成的原始直方图,但它代表了一个“新数据”,因此神经网络可以有更多的例子来学习。

有人知道如何在直方图中添加“噪音”?

1 个答案:

答案 0 :(得分:1)

假设您在±k范围内添加均匀噪声。第i个bin中有Hi像素。每个都将在一些i + j中转换,其中-k≤j≤k,概率为1 /(2k + 1)。

因此,平均而言,单个垃圾箱均匀分布在2k + 1个相邻垃圾箱上。这种效应就是直方图与方波信号的卷积。

类似的推理表明,对于其他噪声分布,您只需将直方图与分布的PDF进行卷积。

这个过程对应于噪声添加的预期效果,因为箱子以平衡的方式被扰动。如果你想要一个更随机的模拟,你可以在每个bin中用随机绘图的直方图替换该分布后的直方图,其中样本数量与bin中的像素一样多(或者更小的数字,相应地校正频率)。 / p>