将预先缓存的数据绘制到许多子图中时,Matplotlib会变慢

时间:2015-02-09 16:00:35

标签: python matplotlib

虽然有很多matplotlib优化帖子,但我没有找到我想要的确切提示,例如: Matplotlib slow with large data sets, how to enable decimation?

Matplotlib - Fast way to create many subplots?

我的问题是我已经缓存了时间序列数据的CSV文件(其中40个)。 我想将它们绘制在一个绘图中,在一个垂直系列中有40个子图,并将它们输出到单个光栅化图像。

我使用matplotlib的代码如下:

def _Draw(self):
    """Output a graph of subplots."""
    BigFont = 10
    # Prepare subplots.
    nFiles = len(self.inFiles)
    fig = plt.figure()
    plt.axis('off')
    for i, f in enumerate(self.inFiles[0:3]):
        pltTitle = '{}:{}'.format(i, f)
        colorFile = self._GenerateOutpath(f, '_rgb.csv')
        data = np.loadtxt(colorFile, delimiter=Separator)
        nRows = data.shape[0]
        ind = np.arange(nRows)
        vals = np.ones((nRows, 1))
        ax = fig.add_subplot(nFiles, 1, i+1)
        ax.set_title(pltTitle, fontsize=BigFont, loc='left')
        ax.axis('off')
        ax.bar(ind, vals, width=1.0, edgecolor='none', color=data)
    figout = plt.gcf()
    plt.savefig(self.args.outFile, dpi=300, bbox_inches='tight')

脚本挂了一整夜。平均而言,我的数据都是~10,000 x 3到~30,000 x 3矩阵。

在我的情况下,我认为我不能使用memmapfile来避免内存耗尽,因为这里的子图似乎是问题,而不是导入每个循环的数据。

我不知道从哪里开始优化此工作流程。 但是,我可以忘记子图并一次为每个数据生成一个绘图图像,然后再缝合40个图像,但这并不理想。

在matplotlib中有一种简单的方法可以做到这一点吗?

1 个答案:

答案 0 :(得分:2)

您的问题就是您绘制数据的方式。

与使用bar完成同样的事情相比,使用imshow绘制数万个完全相同大小的条形图非常效率低下。

例如:

import numpy as np
import matplotlib.pyplot as plt

# Random r,g,b data similar to what you seem to be loading in....
data = np.random.random((30000, 3))

# Make data a 1 x size x 3 array
data = data[None, ...]

# Plotting using `imshow` instead of `bar` will be _much_ faster.
fig, ax = plt.subplots()
ax.imshow(data, interpolation='nearest', aspect='auto')
plt.show()

enter image description here

这应该基本上等同于你目前正在做的事情,但是会更快地绘制并使用更少的内存。