Question

我需要生成一个包含超过100万条记录和50列的数据集。

我尝试了两种方法，但两次尝试都出现内存错误。我使用了ipython，32位和python 2.7。

（sim.require是10,000条记录和50列，我需要追加其中的100条）

for counter in range (0,99): 
    if counter==0:
      sim_all=sim_require.copy()
   else:
      sim_all=sim_all.append(sim_require)

我从上面得到了内存错误，然后我将每次运行保存到.h5文件。所以，我有100个.h5数据集。每个包含10,000条记录，50列。然后我试着读完所有这些但仍然徒劳无功。

os.chdir(outputs_mc)
for cnt in range(0,100):
    if cnt==0:
       sim_all= pd.DataFrame(pd.read_pickle(os.getcwd()+ '\\sim_all_'+ \
                str(cnt) +'.h5'))
    else:
        inp= pd.DataFrame(pd.read_pickle(os.getcwd()+ '\\sim_all_'+ \
                str(cnt) +'.h5'))
        sim_all=sim_all.append(inp)

有人能说明什么是正确的方法吗？谢谢。

Python附加超过100万行的数据

0 个答案: