我正在尝试在数据存储中迭代保存数据帧。但是,第一次和第二次数据帧保存之间的大小增加是有意义的。第一个使数据存储区大小为6.8 MB,然后下一个大小为1.4 GB,而转换为CSV文件时的两个数据帧大约为1.4 MB。
有没有人可以解释这个问题以及如何解决这个问题?
if j == stueli_data_raster_spec.shape[0]-1:
print(f'{i[-6:]} module done')
store_training_data = pd.HDFStore('dataframe_training_data.h5')
with store_training_data as hdf_t:
if f'/train_df_{i[-6:]}' not in hdf_t.keys():
training_data_df = pd.DataFrame.from_dict(training_data_dict).reset_index().drop('index', axis=1)
training_data_df.to_hdf(store_training_data, f'train_df_{i[-6:]}', mode = 'w')
else:
print(f'/train_df_{i[-6:]} already saved.')
这是查询对象的输出:
<class 'pandas.io.pytables.HDFStore'>
File path: dataframe_training_data.h5
/train_df_020030 frame (shape->[13861,30])
/train_df_020099 frame (shape->[11935,30])