我正在用matplotlib生成一些直方图,我在弄清楚如何使直方图的xticks与条形图对齐时遇到了一些麻烦。
以下是我用来生成直方图的代码示例:
from matplotlib import pyplot as py
py.hist(histogram_data, 49, alpha=0.75)
py.title(column_name)
py.xticks(range(49))
py.show()
我知道histogram_data
数组中的所有值都在[0,1,...,48]
中。其中,假设我做了正确的数学运算,意味着有49个唯一值。我想显示每个值的直方图。这是生成内容的图片。
如何设置图形,使所有xticks都与每个条形图的左侧,中间或右侧对齐?
答案 0 :(得分:80)
简答:使用plt.hist(data, bins=range(50))
来获取左对齐的二进制位,plt.hist(data, bins=np.arange(50)-0.5)
来获取中心对齐的二进制位等。
此外,如果性能很重要,因为您需要唯一整数的计数,我会在最后显示一些稍微更有效的方法(np.bincount
)。
作为您所看到的独立示例,请考虑以下事项:
import matplotlib.pyplot as plt
import numpy as np
# Generate a random array of integers between 0-9
# data.min() will be 0 and data.max() will be 9 (not 10)
data = np.random.randint(0, 10, 1000)
plt.hist(data, bins=10)
plt.xticks(range(10))
plt.show()
正如您所注意到的那样,这些垃圾箱并未与整数间隔对齐。这基本上是因为你在 0到9之间要求10个箱,这与要求10个唯一值的箱子完全相同。
您想要的垃圾箱数量与唯一值的数量完全相同。在这种情况下,您实际应该做的是手动指定bin边缘。
要解释正在进行的操作,请跳过matplotlib.pyplot.hist
,然后使用基础numpy.histogram
功能。
例如,我们假设您拥有值[0, 1, 2, 3]
。你的第一直觉是:
In [1]: import numpy as np
In [2]: np.histogram([0, 1, 2, 3], bins=4)
Out[2]: (array([1, 1, 1, 1]), array([ 0. , 0.75, 1.5 , 2.25, 3. ]))
返回的第一个数组是计数,第二个是bin边缘(换句话说,条形边缘位于图中)。
请注意,我们得到了我们期望的计数,但由于我们要求数据的最小值和最大值之间有4个bin,因此bin边缘不是整数值。
接下来,您可以尝试:
In [3]: np.histogram([0, 1, 2, 3], bins=3)
Out[3]: (array([1, 1, 2]), array([ 0., 1., 2., 3.]))
请注意,bin边缘(第二个数组)是您所期望的,但计数不是。这是因为最后一个bin的行为与其他bin不同,如numpy.histogram
的文档中所述:
Notes
-----
All but the last (righthand-most) bin is half-open. In other words, if
`bins` is::
[1, 2, 3, 4]
then the first bin is ``[1, 2)`` (including 1, but excluding 2) and the
second ``[2, 3)``. The last bin, however, is ``[3, 4]``, which *includes*
4.
因此,您实际应该做的是准确指定您想要的bin边缘,并且包括超出最后一个数据点的bin边缘或将bin边缘移动到0.5
间隔。例如:
In [4]: np.histogram([0, 1, 2, 3], bins=range(5))
Out[4]: (array([1, 1, 1, 1]), array([0, 1, 2, 3, 4]))
现在让我们将其应用于第一个示例,看看它是什么样的:
import matplotlib.pyplot as plt
import numpy as np
# Generate a random array of integers between 0-9
# data.min() will be 0 and data.max() will be 9 (not 10)
data = np.random.randint(0, 10, 1000)
plt.hist(data, bins=range(11)) # <- The only difference
plt.xticks(range(10))
plt.show()
好的,太棒了!但是,我们现在实际上有左对齐的箱子。如果我们希望中心对齐的分档能够更好地反映这些是唯一值的事实呢?
快速的方法是只移动垃圾箱边缘:
import matplotlib.pyplot as plt
import numpy as np
# Generate a random array of integers between 0-9
# data.min() will be 0 and data.max() will be 9 (not 10)
data = np.random.randint(0, 10, 1000)
bins = np.arange(11) - 0.5
plt.hist(data, bins)
plt.xticks(range(10))
plt.xlim([-1, 10])
plt.show()
对于右对齐的二进制文件,只需按-1
移动。
对于唯一整数值的特殊情况,我们可以采用另一种更有效的方法。
如果你正在处理从0开始的唯一整数计数,那么使用numpy.bincount
比使用numpy.hist
更好。
例如:
import matplotlib.pyplot as plt
import numpy as np
data = np.random.randint(0, 10, 1000)
counts = np.bincount(data)
# Switching to the OO-interface. You can do all of this with "plt" as well.
fig, ax = plt.subplots()
ax.bar(range(10), counts, width=1, align='center')
ax.set(xticks=range(10), xlim=[-1, 10])
plt.show()
这种方法有两大优点。一个是速度。 numpy.histogram
(因此plt.hist
)基本上通过numpy.digitize
然后numpy.bincount
运行数据。由于您正在处理唯一的整数值,因此无需执行numpy.digitize
步骤。
然而,更大的优势是更多地控制显示器。如果您喜欢较薄的矩形,请使用较小的宽度:
import matplotlib.pyplot as plt
import numpy as np
data = np.random.randint(0, 10, 1000)
counts = np.bincount(data)
# Switching to the OO-interface. You can do all of this with "plt" as well.
fig, ax = plt.subplots()
ax.bar(range(10), counts, width=0.8, align='center')
ax.set(xticks=range(10), xlim=[-1, 10])
plt.show()
答案 1 :(得分:0)
使用OO界面配置刻度线的好处是可以在保留xticks的同时使标签居中。此外,它适用于任何绘图功能,并不依赖np.bincount()
或ax.bar()
import matplotlib.ticker as tkr
data = np.random.randint(0, 10, 1000)
mybins = range(11)
fig, ax = subplots()
ax.hist(data, bins=mybins, rwidth=0.8)
ax.set_xticks(mybins)
ax.xaxis.set_minor_locator(tkr.AutoMinorLocator(n=2))
ax.xaxis.set_minor_formatter(tkr.FixedFormatter(mybins))
ax.xaxis.set_major_formatter(tkr.NullFormatter())
for tick in ax.xaxis.get_minor_ticks():
tick.tick1line.set_markersize(0)
答案 2 :(得分:0)
如果评论为bins.append(sorted(set(labels))[-1])
:
bins = [i_bin - 0.5 for i_bin in set(labels)]
# bins.append(sorted(set(labels))[-1])
plt.hist(labels, bins)
plt.show()
如果不是:
bins = [i_bin - 0.5 for i_bin in set(labels)]
bins.append(sorted(set(labels))[-1])
plt.hist(labels, bins)
plt.show()
答案 3 :(得分:0)
您要寻找的是知道每个 bin 的边缘并将其用作 xtick。
假设您在 x 中有一些数字来生成直方图。
import matplotlib.pyplot as plt
import numpy as np
import random
n=1000
x=np.zeros(1000)
for i in range(n):
x[i]=random.uniform(0,100)
现在让我们创建直方图。
n, bins, edges = plt.hist(x,bins=5,ec="red",alpha=0.7)
现在,由于您已获得从左到右开始的 bin 边缘位置,请将其显示为 xticks。
plt.xticks(bins)
plt.show()