应用错误收集

有没有办法使熊猫read_csv功能更快

时间：2019-11-13 01:46:14

标签： python pandas multithreading multiprocessing

当前，我正在处理一个很大的文件（大约45GB）我正在尝试使用pandas read_csv函数加载文件，但是，它要花很长时间才能加载文件。有没有办法加快这个过程？

我当时正在考虑将文件分成几个块，然后使用多处理程序加载它们。

或者有更好的方法吗？

编辑：我认为在read_csv（）中使用chunksize参数是最好的选择

1 个答案:

答案 0 :(得分：2)

您可以使用modin.pandas refer this link来显示read_csv的性能差异。

根据我使用modin的经验，它比熊猫快。但尚未尝试使用45GB数据。您可以尝试一下

您也可以尝试使用Dask click here