有没有办法使熊猫read_csv功能更快

时间:2019-11-13 01:46:14

标签: python pandas multithreading multiprocessing

当前,我正在处理一个很大的文件(大约45GB) 我正在尝试使用pandas read_csv函数加载文件,但是,它要花很长时间才能加载文件。有没有办法加快这个过程?

我当时正在考虑将文件分成几个块,然后使用多处理程序加载它们。

或者有更好的方法吗?

编辑:我认为在read_csv()中使用chunksize参数是最好的选择

1 个答案:

答案 0 :(得分:2)

您可以使用modin.pandas refer this link来显示read_csv的性能差异。

根据我使用modin的经验,它比熊猫快。但尚未尝试使用45GB数据。您可以尝试一下

您也可以尝试使用Dask click here