我想使用Matplotlib生成包含大量数据(大约300万个点)的散点图。实际上我有3个具有相同尺寸的矢量,我用以下面的方式进行绘图。
import matplotlib.pyplot as plt
import numpy as np
from numpy import *
from matplotlib import rc
import pylab
from pylab import *
fig = plt.figure()
fig.subplots_adjust(bottom=0.2)
ax = fig.add_subplot(111)
plt.scatter(delta,vf,c=dS,alpha=0.7,cmap=cm.Paired)
实际上没什么特别的。但实际生成它需要很长时间(我正在使用Python 2.7和Matplotlib 1.0处理我的MacBook Pro 4 GB RAM)。有没有办法提高速度?
答案 0 :(得分:19)
除非你的图形很大,否则这300万个点中的许多点将会重叠。 (400x600图像只有240K点......)
所以最简单的方法是从你的数据中拿出1000分的样本:
import random
delta_sample=random.sample(delta,1000)
并且只绘制那个。
例如:
import matplotlib.pyplot as plt
import matplotlib.cm as cm
import numpy as np
import random
fig = plt.figure()
fig.subplots_adjust(bottom=0.2)
ax = fig.add_subplot(111)
N=3*10**6
delta=np.random.normal(size=N)
vf=np.random.normal(size=N)
dS=np.random.normal(size=N)
idx=random.sample(range(N),1000)
plt.scatter(delta[idx],vf[idx],c=dS[idx],alpha=0.7,cmap=cm.Paired)
plt.show()
或者,如果您需要更多地关注异常值,那么您可以使用np.histogram
对数据进行分类,然后撰写一个delta_sample
,其中包含来自每个分区的代表。
不幸的是,在使用np.histogram
时,我认为没有任何简单的方法可以将垃圾箱与各个数据点相关联。一个简单但近似的解决方案是使用bin边缘或其上的一个点的位置作为其中各点的代理:
xedges=np.linspace(-10,10,100)
yedges=np.linspace(-10,10,100)
zedges=np.linspace(-10,10,10)
hist,edges=np.histogramdd((delta,vf,dS), (xedges,yedges,zedges))
xidx,yidx,zidx=np.where(hist>0)
plt.scatter(xedges[xidx],yedges[yidx],c=zedges[zidx],alpha=0.7,cmap=cm.Paired)
plt.show()
答案 1 :(得分:9)
尝试pyplot.hexbin怎么样?它根据一定数量的箱子中的点密度生成一种热图。
答案 2 :(得分:7)
您可以采用here显示的热图方法。在此示例中,颜色表示bin中的数据量,而不是dS数组的中值,但应该很容易更改。如果你有兴趣,可以稍后再说。