对于混合类型数据,Pandas中数据存储的最佳选择是什么?

时间:2018-01-22 11:45:33

标签: python pandas storage

我正在处理一个存储为ndjson的大型数据集,其中每行数据都是一个json对象,我逐行读取并使用pandas json_normalise()展平每一行并保存它在列表中作为数据帧,然后我将此列表连接起来。

整个过程在大功率机器上需要约2个小时,所以我想保存结果,所以我不必重复它,但是,我尝试过使用to_hdfs和to_parquet,但两者都失败了,我相信它是由于大多数列具有混合数据类型,其中可能存在字符串,浮点数和整数,这是混乱数据收集系统不可避免的后果。

在清理这些未经处理的数据之前,最合适的方法是什么?

1 个答案:

答案 0 :(得分:0)

我认为这应该有助pickle

要写DataFrame/Series,请使用to_pickle

对于回读使用read_pickle