在同一图中标准化两个直方图

时间:2017-12-27 22:02:52

标签: database matplotlib histogram bar-chart normalization

我很感激以下任何见解。

我想在一个公共直方图上绘制两个数据集,这样两个直方图都没有顶部截止,概率分布范围从0到1.

让我解释一下我的意思。到目前为止,我可以很好地在一个直方图上绘制两个数据集,并通过在normed = 1中编写ax.hist()来强制两个分布的积分为1,如下图所示: enter image description here

并且由以下代码生成:

        x1, w1, patches1 = ax.hist(thing1, bins=300, edgecolor='b', color='b', histtype='stepfilled', alpha=0.2, normed = 1)

        x2, w2, patches2 = ax.hist(thing2, bins=300, edgecolor='g', color='g', histtype='stepfilled', alpha=0.2, normed = 1)             

在一般情况下,一个概率分布远高于另一个概率分布,这使得难以清楚地阅读该图。

所以,我试图对两者进行归一化,使得它们在y轴上的范围从0到1,并且仍然保持它们的形状。例如,我尝试了以下代码:

for item in patches1:
    item.set_height(item.get_height()/sum(x1))

取自此处How to normalize a histogram in python?的讨论,但是python会向我发出一条错误消息,指出没有get_height这样的质量。

我的问题很简单:我怎样才能让y轴的范围从0到1并保留两个分布的形状?

2 个答案:

答案 0 :(得分:2)

我建议使用numpy预先计算直方图,然后使用matplotlibbar中绘制直方图。然后可以通过除以每个直方图的最大幅度简单地对直方图进行归一化(通过幅度)。请注意,为了在两个直方图之间进行任何有意义的比较,最好对它们使用相同的bins。下面是一个例子:

from matplotlib import pyplot as plt
import numpy as np

##some random distribution
dist1 = np.random.normal(0.5, 0.25, 1000)
dist2 = np.random.normal(0.8, 0.1, 1000)

##computing the bin properties (same for both distributions)
num_bin = 50
bin_lims = np.linspace(0,1,num_bin+1)
bin_centers = 0.5*(bin_lims[:-1]+bin_lims[1:])
bin_widths = bin_lims[1:]-bin_lims[:-1]

##computing the histograms
hist1, _ = np.histogram(dist1, bins=bin_lims)
hist2, _ = np.histogram(dist2, bins=bin_lims)

##normalizing
hist1b = hist1/np.max(hist1)
hist2b = hist2/np.max(hist2)

fig, (ax1,ax2) = plt.subplots(nrows = 1, ncols = 2)

ax1.bar(bin_centers, hist1, width = bin_widths, align = 'center')
ax1.bar(bin_centers, hist2, width = bin_widths, align = 'center', alpha = 0.5)
ax1.set_title('original')

ax2.bar(bin_centers, hist1b, width = bin_widths, align = 'center')
ax2.bar(bin_centers, hist2b, width = bin_widths, align = 'center', alpha = 0.5)
ax2.set_title('ampllitude-normalized')

plt.show()

这张照片看起来像这样:

enter image description here

希望这有帮助。

答案 1 :(得分:0)

我尝试将两者标准化,以使它们在y轴上的范围都从0到1,并且仍然保留其形状。

此方法不会以0到1的比例显示您的图,但会以相同的比例将它们彼此相对

只需将plt.hist()函数调用中的参数设置为density=True,如下所示:

plt.hist([array_1, array2], density=True)

这将以相同的比例绘制两个分布,以使每个曲线下的面积之和为1。