“如何读取大型CSV的一部分或用任何步骤读取它”

时间:2017-12-15 07:06:37

标签: python visualization data-science

我有一个非常大的数据集,包含125497040行和6列。当我尝试在pandas中读取整个CSV文件时,我的系统崩溃,因此我以块的形式读取该文件。

我想知道有没有办法通过读取块来可视化整个数据?

1 个答案:

答案 0 :(得分:1)

我认为一次可视化所有数据并不是一个好主意,因为我们无法在一个小图表中看到所有图表点。您可以使用任何平滑或/和近似算法,或只是采取某一步骤。你可以在图表缩放上详细说明。

查看 Plotly https://plot.ly/javascript/zoom-events/

如果这对您来说是一种令人满意的方法,那么值得重新提出问题,例如"如何读取大型CSV的一部分或者用任何步骤读取它"。似乎可以用这个来解决这个问题:

http://pandas-docs.github.io/pandas-docs-travis/io.html#iterating-through-files-chunk-by-chunk