我需要生成一个包含超过100万条记录和50列的数据集。
我尝试了两种方法,但两次尝试都出现内存错误。我使用了ipython,32位和python 2.7。
(sim.require是10,000条记录和50列,我需要追加其中的100条)
for counter in range (0,99):
if counter==0:
sim_all=sim_require.copy()
else:
sim_all=sim_all.append(sim_require)
我从上面得到了内存错误,然后我将每次运行保存到.h5文件。 所以,我有100个.h5数据集。每个包含10,000条记录,50列。然后我试着读完所有这些但仍然徒劳无功。
os.chdir(outputs_mc)
for cnt in range(0,100):
if cnt==0:
sim_all= pd.DataFrame(pd.read_pickle(os.getcwd()+ '\\sim_all_'+ \
str(cnt) +'.h5'))
else:
inp= pd.DataFrame(pd.read_pickle(os.getcwd()+ '\\sim_all_'+ \
str(cnt) +'.h5'))
sim_all=sim_all.append(inp)
有人能说明什么是正确的方法吗? 谢谢。