虽然有很多matplotlib优化帖子,但我没有找到我想要的确切提示,例如: Matplotlib slow with large data sets, how to enable decimation?
Matplotlib - Fast way to create many subplots?
我的问题是我已经缓存了时间序列数据的CSV文件(其中40个)。 我想将它们绘制在一个绘图中,在一个垂直系列中有40个子图,并将它们输出到单个光栅化图像。
我使用matplotlib的代码如下:
def _Draw(self):
"""Output a graph of subplots."""
BigFont = 10
# Prepare subplots.
nFiles = len(self.inFiles)
fig = plt.figure()
plt.axis('off')
for i, f in enumerate(self.inFiles[0:3]):
pltTitle = '{}:{}'.format(i, f)
colorFile = self._GenerateOutpath(f, '_rgb.csv')
data = np.loadtxt(colorFile, delimiter=Separator)
nRows = data.shape[0]
ind = np.arange(nRows)
vals = np.ones((nRows, 1))
ax = fig.add_subplot(nFiles, 1, i+1)
ax.set_title(pltTitle, fontsize=BigFont, loc='left')
ax.axis('off')
ax.bar(ind, vals, width=1.0, edgecolor='none', color=data)
figout = plt.gcf()
plt.savefig(self.args.outFile, dpi=300, bbox_inches='tight')
脚本挂了一整夜。平均而言,我的数据都是~10,000 x 3到~30,000 x 3矩阵。
在我的情况下,我认为我不能使用memmapfile来避免内存耗尽,因为这里的子图似乎是问题,而不是导入每个循环的数据。
我不知道从哪里开始优化此工作流程。 但是,我可以忘记子图并一次为每个数据生成一个绘图图像,然后再缝合40个图像,但这并不理想。
在matplotlib中有一种简单的方法可以做到这一点吗?
答案 0 :(得分:2)
您的问题就是您绘制数据的方式。
与使用bar
完成同样的事情相比,使用imshow
绘制数万个完全相同大小的条形图非常效率低下。
例如:
import numpy as np
import matplotlib.pyplot as plt
# Random r,g,b data similar to what you seem to be loading in....
data = np.random.random((30000, 3))
# Make data a 1 x size x 3 array
data = data[None, ...]
# Plotting using `imshow` instead of `bar` will be _much_ faster.
fig, ax = plt.subplots()
ax.imshow(data, interpolation='nearest', aspect='auto')
plt.show()
这应该基本上等同于你目前正在做的事情,但是会更快地绘制并使用更少的内存。