大熊猫HDFStore大小呈指数增长

时间:2017-09-08 21:27:40

标签: python pandas hdfstore

我正在尝试在数据存储中迭代保存数据帧。但是,第一次和第二次数据帧保存之间的大小增加是有意义的。第一个使数据存储区大小为6.8 MB,然后下一个大小为1.4 GB,而转换为CSV文件时的两个数据帧大约为1.4 MB。

有没有人可以解释这个问题以及如何解决这个问题?

if j == stueli_data_raster_spec.shape[0]-1:
    print(f'{i[-6:]} module done')
    store_training_data = pd.HDFStore('dataframe_training_data.h5')
    with store_training_data as hdf_t:

    if f'/train_df_{i[-6:]}' not in hdf_t.keys():
       training_data_df = pd.DataFrame.from_dict(training_data_dict).reset_index().drop('index', axis=1)
       training_data_df.to_hdf(store_training_data, f'train_df_{i[-6:]}', mode = 'w') 
    else:
        print(f'/train_df_{i[-6:]} already saved.')

这是查询对象的输出:

<class 'pandas.io.pytables.HDFStore'>
File path: dataframe_training_data.h5
/train_df_020030            frame        (shape->[13861,30])
/train_df_020099            frame        (shape->[11935,30])

0 个答案:

没有答案