Question

我有一百万行的数据框。我试图将其分解为每个1000行的小型数据框。我可以使用以下代码将此巨大的数据框分解为较小的块（每块1000行）：

size = 1000
list_of_dfs = [df[i:i+size-1,:] for i in range(0, len(df),size)]

但是我不确定如何在循环中调用这些较小的数据框中的每一个，以便我可以读取已创建的全部1000个小型数据框。

Answer 1

输出是DataFrame的列表，因此您可以循环播放它们：

out = []
for df_small in list_of_dfs:
    print (df_small)
    #procesing...
    out.append(df_small)

类似：

for i in range(0, len(df),size):
    df_small = df[i:i+size-1,:] 
    print (df_small)

如果可以将数据保存在csv中，请使用chunksize参数：

for df_small in pd.read_csv(filename, chunksize=size):
    print (df_small)