我想在7个文件4GB .txt文件中创建一个大型pd.dataframe,我想使用它+保存到.csv
我做了什么:
创建了一个for循环,并在axis = 0上逐个打开 - 并继续我的索引(时间戳)。
但是我遇到了内存问题,即使我正在使用100GB Ram服务器。我在某处读到了熊猫占据数据大小的5-10倍。
我有什么选择?
一个是创建一个空的csv - 打开它+ txt +附加一个新的块并保存。
其他想法?
答案 0 :(得分:1)
使用h5py库创建hdf5文件将允许您创建一个大数据集并访问它而无需将所有数据加载到内存中。
此答案提供了如何创建和增量增加hdf5数据集的示例:incremental writes to hdf5 with h5py