我希望可视化200k-300k行,可能多达100万行,其中每行是一个随时间增长的整数值的累积序列,每天一个值,大约1000天。每行的最终值范围为0到500。
很可能有些行会出现在我的行数1000次,其他100次,其他10次,并且一些异常值将是唯一的。为了在xy平面中绘制大量点,在某些情况下,alpha透明度可以是一种解决方案,但如果您希望能够稳健地区分过脉印密度,则不太好。更有力地扩展的解决方案是使用像hexbin这样的东西,它可以容纳空间并允许您使用颜色映射来绘制每个bin中的点密度。
我无法在python(理想情况下)或R中找到一个现成的解决方案来做类似的绘制线而不是点。
以下代码演示了使用小样本(n = 1000行)的问题:任何人都可以建议我如何放弃alpha值方法,转而采用允许我为线密度引入颜色映射的解决方案,使用变换我可以控制吗?
df = pd.DataFrame(np.random.randint(2,size=(100,1000)))
df.cumsum().plot(legend=False, color='grey', alpha=.1, figsize=(12,8))
响应请求:这就是现在的示例情节;在宽阔的黑暗带中,10个overplots完全饱和了线条,因此线条的各个部分超过10,100,并且1000次无法区分