带有大量数据的散点图

时间:2010-11-02 21:35:31

标签: python numpy matplotlib

我想使用Matplotlib生成包含大量数据(大约300万个点)的散点图。实际上我有3个具有相同尺寸的矢量,我用以下面的方式进行绘图。

import matplotlib.pyplot as plt
import numpy as np
from numpy import *
from matplotlib import rc
import pylab
from pylab import * 
fig = plt.figure()
fig.subplots_adjust(bottom=0.2)
ax = fig.add_subplot(111)
plt.scatter(delta,vf,c=dS,alpha=0.7,cmap=cm.Paired)

实际上没什么特别的。但实际生成它需要很长时间(我正在使用Python 2.7和Matplotlib 1.0处理我的MacBook Pro 4 GB RAM)。有没有办法提高速度?

3 个答案:

答案 0 :(得分:19)

除非你的图形很大,否则这300万个点中的许多点将会重叠。 (400x600图像只有240K点......)

所以最简单的方法是从你的数据中拿出1000分的样本:

import random
delta_sample=random.sample(delta,1000)

并且只绘制那个。

例如:

import matplotlib.pyplot as plt
import matplotlib.cm as cm
import numpy as np
import random

fig = plt.figure()
fig.subplots_adjust(bottom=0.2)
ax = fig.add_subplot(111)

N=3*10**6
delta=np.random.normal(size=N)
vf=np.random.normal(size=N)
dS=np.random.normal(size=N)

idx=random.sample(range(N),1000)

plt.scatter(delta[idx],vf[idx],c=dS[idx],alpha=0.7,cmap=cm.Paired)
plt.show()

alt text

或者,如果您需要更多地关注异常值,那么您可以使用np.histogram对数据进行分类,然后撰写一个delta_sample,其中包含来自每个分区的代表。

不幸的是,在使用np.histogram时,我认为没有任何简单的方法可以将垃圾箱与各个数据点相关联。一个简单但近似的解决方案是使用bin边缘或其上的一个点的位置作为其中各点的代理:

xedges=np.linspace(-10,10,100)
yedges=np.linspace(-10,10,100)
zedges=np.linspace(-10,10,10)
hist,edges=np.histogramdd((delta,vf,dS), (xedges,yedges,zedges))
xidx,yidx,zidx=np.where(hist>0)
plt.scatter(xedges[xidx],yedges[yidx],c=zedges[zidx],alpha=0.7,cmap=cm.Paired)
plt.show()

alt text

答案 1 :(得分:9)

尝试pyplot.hexbin怎么样?它根据一定数量的箱子中的点密度生成一种热图。

答案 2 :(得分:7)

您可以采用here显示的热图方法。在此示例中,颜色表示bin中的数据量,而不是dS数组的中值,但应该很容易更改。如果你有兴趣,可以稍后再说。