Pandas read_csv有4GB的csv

时间:2018-03-13 19:21:34

标签: python python-3.x pandas csv

我的机器在尝试使用chunksize选项在jupyter笔记本中读取4GB的csv时有些迟钝: raw = pd.read_csv(csv_path, chunksize=10**6) data = pd.concat(raw, ignore_index=True) 这需要永远运行并冻结我的机器(Ubuntu 16.04与16GB的RAM)。这样做的正确方法是什么?

1 个答案:

答案 0 :(得分:2)

使用chunk的关键是你一次不需要内存中的整个数据集,你可以在读取文件时处理每个块。假设您一次不需要内存中的整个数据集,则可以执行

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
   do_something(chunk)