Python附加超过100万行的数据

时间:2016-03-13 17:07:33

标签: python pandas hdf

我需要生成一个包含超过100万条记录和50列的数据集。

我尝试了两种方法,但两次尝试都出现内存错误。我使用了ipython,32位和python 2.7。

(sim.require是10,000条记录和50列,我需要追加其中的100条)

for counter in range (0,99): 
    if counter==0:
      sim_all=sim_require.copy()
   else:
      sim_all=sim_all.append(sim_require)

我从上面得到了内存错误,然后我将每次运行保存到.h5文件。 所以,我有100个.h5数据集。每个包含10,000条记录,50列。然后我试着读完所有这些但仍然徒劳无功。

os.chdir(outputs_mc)
for cnt in range(0,100):
    if cnt==0:
       sim_all= pd.DataFrame(pd.read_pickle(os.getcwd()+ '\\sim_all_'+ \
                str(cnt) +'.h5'))
    else:
        inp= pd.DataFrame(pd.read_pickle(os.getcwd()+ '\\sim_all_'+ \
                str(cnt) +'.h5'))
        sim_all=sim_all.append(inp)

有人能说明什么是正确的方法吗? 谢谢。

0 个答案:

没有答案