在Google Colab中使用plotly绘制具有600万以上行的数据集

时间:2020-07-07 14:38:47

标签: python plotly google-colaboratory

让我先给您一些背景信息。我能够导入kaggle竞赛(准确度为m5)的整个数据,并且效果非常好。问题是,当我尝试使用plotly(无聚合)进行直方图操作时,不会返回任何内容。但是当我使用Sample时,它可以正确绘制。

一些其他信息:

  • 我在Google colab中使用了plotly的渲染器。
  • 数据框中的行数为56M,而我的样本为10M。
  • 我运行了matplotlib和seaborn直方图,并根据所有数据成功显示了直方图。
  • 我尝试使用6M较小的数据帧运行直方图。发生相同的情况,但我能够使用2M的样本进行绘制。
  • 我尝试了一个带有seaborn提示数据帧的直方图,并正确绘制了直方图。
  • 创建基于聚合的图形时,它可以完美运行。

这是我的代码的链接。 https://colab.research.google.com/drive/1uMU3ctDzkGObYeCfxF36hURT9WIvnrl7?usp=sharing

我知道这不是进行良好设计分析的限制,但我想知道是否有可能使用所有可用数据以及造成此问题的原因。谢谢您阅读我。

1 个答案:

答案 0 :(得分:1)

问题已经here

解决方案是先进行汇总,例如collections.Counter()。然后绘制条形图。