直方图箱大小

时间:2018-11-13 09:17:23

标签: python pandas histogram

我有这样的代码,我想知道为什么两个绘图图的bin大小不同?

import matplotlib.pyplot as pyplot
bins=15
pyplot.rcParams["figure.figsize"] = (10,10)

#echte_Ladezeit
pyplot.hist(Y_test, bins, alpha=1, label='Y_test; orange Dateien', 
color='orange', weights = np.ones_like(Y_test)/float(len(Y_test)))
pyplot.hist(Y_train, bins, alpha=1, label='Y_train; grüne Dateien', 
color='green', weights = np.ones_like(Y_train)/float(len(Y_train)))
pyplot.title('Verteilung echte_Ladezeit')
pyplot.xlabel('echte_Ladezeit')
pyplot.ylabel('Häufigkeit [%]')
pyplot.legend(loc='upper right')
pyplot.show()

实际上,橙色和绿色标记的宽度应该相同吗?我的代码中有任何错误吗? enter image description here

1 个答案:

答案 0 :(得分:3)

您的代码包含pyplot.hist(..., bins, ...),其中bins = 15。这意味着在最大值和最小值之间均匀间隔的15个bin。两个数据集的最大值和最小值不同,因此您获得了15个bin的不同集合。如果要为每个数据集获取等宽的条带,则至少有两个选择。

  1. 规范化数据集-两个数据集的最大值和最小值应相同。

  2. 按照here的说明将垃圾箱定义为序列(例如,list(range(0, 40000 + 1, 5000)))。