我有一百万行的数据框。我试图将其分解为每个1000行的小型数据框。我可以使用以下代码将此巨大的数据框分解为较小的块(每块1000行):
size = 1000
list_of_dfs = [df[i:i+size-1,:] for i in range(0, len(df),size)]
但是我不确定如何在循环中调用这些较小的数据框中的每一个,以便我可以读取已创建的全部1000个小型数据框。
答案 0 :(得分:2)
输出是DataFrame
的列表,因此您可以循环播放它们:
out = []
for df_small in list_of_dfs:
print (df_small)
#procesing...
out.append(df_small)
类似:
for i in range(0, len(df),size):
df_small = df[i:i+size-1,:]
print (df_small)
如果可以将数据保存在csv中,请使用chunksize
参数:
for df_small in pd.read_csv(filename, chunksize=size):
print (df_small)