如何保存解析日期pandas数据帧?

时间:2018-03-27 00:27:46

标签: pandas csv dataframe

目前我正在阅读CSV文件并解析日期,

train = pd.read_csv('sales_train.csv', parse_dates=['date'])

date    
2015-10-10
2015-09-10
2015-10-14
2015-10-22
2015-03-10

此时正确解析数据帧。如果我需要在另一天访问相同的数据帧,我不想再次解析日期列并花费10分钟来计算。如何保存已解析日期的数据框?

2 个答案:

答案 0 :(得分:0)

您可以发布一些代码和示例数据吗?

如果您正在运行pd.to_datetime(df['date'])之类的内容但未将其保存在任何地方,请尝试:

df['date'] = pd.to_datetime(df['date'])

答案 1 :(得分:0)

在解析日期之后,建议将数据框保存为 Parquet HDF 格式,如下所示:

df.to_parquet('df.parquet', engine='fastparquet')
df.to_hdf('df.h5','table_name',append=True)

如果我想阅读,

df.to_parquet('df.parquet', engine='fastparquet')
df.to_hdf('df.h5','table_name',append=True)

注1:安装此库非常重要

conda install fastparquet pyarrow python-snappy -c conda-forge

注2: Parquet格式小于hdf