连接已处理数据帧列表时出现内存错误

时间:2017-10-25 10:33:30

标签: python pandas data-science

我的内存大约是15GB。

我有一个30GB +数据,我通过chunk

读取
df_user_logs = pd.read_csv('../input/user_logs.csv', chunksize=1000000)

然后对于每个块我都像这样做了内存减少

list_of_dfs = []
for chunk in df_user_logs:
  change_datatype(chunk)
  change_datatype_float(chunk)
  list_of_dfs.append(chunk)

我是根据Link 1Link 2

给出的答案和评论做到的

当我尝试连接list_of_dfs

时发生了MemoryError
df_user_logs = pd.concat(list_of_dfs)

非常感谢任何解决方案。

0 个答案:

没有答案