将12GB csv加载到python并将其转换为数据帧

时间:2016-10-19 01:26:13

标签: python-3.x pandas csv bigdata

我想将12GB的csv文件加载到python中,然后进行分析。 我试图使用这种方法

file_input_to_system = pd.read_csv(usrinput)

,但失败了,因为该方法占用了我所有的RAM。

我现在的目标是从硬盘读取文件但不从RAM读取文件。我用谷歌搜索了这个样本

f = open("file_path","r")
for row in csv.reader(f):
    df = pd.DataFrame(row)
    print(df)
f.close()

但我不知道如何修改它以便它可以读取csv并将其解析为数据帧。

当我尝试这个时,它可以读取文件而不消耗我所有的内存。 但是,当我将其解析为数据帧时,我的所有内存都被消耗掉了。

chunksize = 100
df = pd.read_csv("C:/Users/user/Documents/GitHub/MyfirstRep/export_lage.csv",iterator=True,chunksize=chunksize)
df = pd.concat(df, ignore_index=True)
print(df)

0 个答案:

没有答案