pandas将csv转换为h5文件,避免内存错误

时间:2015-05-15 10:08:36

标签: python pandas expand hdf

我有这个简单的代码

data = pd.read_csv(file_path + 'PSI_TS_clean.csv', nrows=None, 
                   names=None, usecols=None)

data.to_hdf(file_path + 'PSI_TS_clean.h5', 'table')

但是我的数据太大了,我遇到了内存问题。

什么是一个干净的方式来做块这个块?

1 个答案:

答案 0 :(得分:0)

如果csv非常大,请使用详细方法分割文件:chunking-data-from-a-large-file-for-multiprocessing

然后遍历文件并在每个文件上使用pd.read_csv然后使用pd.to_hdf方法

for to_hdf检查这里的参数:DataFrame.to_hdf你需要确保模式'a'并考虑追加。

如果不了解有关数据框架结构的更多细节,则很难进一步评论。

对于read_csv也有param:low_memory = False