我有一个1000万行,60列的数据帧,这些数据帧是我从一个镶木地板文件中读取的。
我有一条代码行(如下),它可以旋转数据框,另外还可以按照我的需要进行其他3行操作。但是,以下代码行仅适用于较小的数据集,而不适用于较大的数据集:
pivoted_df = pd.pivot_table(df.fillna('missing'), index=cols, columns='Field', values='Value', aggfunc='first').reset_index().replace('missing', np.nan)
pivoted_df = pivoted_df.drop(['FieldId', 'FieldType'], axis=1)
pivoted_df = pivoted_df.replace('nan', np.nan)
pivoted_df = pivoted_df.groupby('Id', as_index=False).last()
无论如何,我可以对df
中的数据进行分块,同时分别旋转这些分块,稍后再将旋转后的数据清理并结合在一起吗?
内核在spyder和终端中始终崩溃。
打开以使用任何其他工具来执行此操作。
答案 0 :(得分:0)
我使用以下方法将数据框分解成均匀的大小:
import numpy as np
z = np.array_split(df, 5)
然后遍历列表:
for i in z:
(rest of code)