当前,我正在处理一个很大的文件(大约45GB) 我正在尝试使用pandas read_csv函数加载文件,但是,它要花很长时间才能加载文件。有没有办法加快这个过程?
我当时正在考虑将文件分成几个块,然后使用多处理程序加载它们。
或者有更好的方法吗?
编辑:我认为在read_csv()中使用chunksize参数是最好的选择
答案 0 :(得分:2)
您可以使用modin.pandas
refer this link来显示read_csv
的性能差异。
根据我使用modin的经验,它比熊猫快。但尚未尝试使用45GB数据。您可以尝试一下
您也可以尝试使用Dask
click here