我正在学习python pandas。 我看到一个教程,它显示了两种保存pandas数据帧的方法。
pd.to_csv('sub.csv')
并打开pd.read_csv('sub.csv')
pd.to_pickle('sub.pkl')
并打开pd.read_pickle('sub.pkl')
教程说to_pickle
是将数据帧保存到磁盘。我很困惑。因为当我使用to_csv
时,我确实看到文件夹中出现了一个csv文件,我假设它也保存到磁盘上了吗?
一般来说,为什么我们要使用to_pickle
保存数据框而不是将其保存为csv或txt或其他格式?
答案 0 :(得分:10)
Pickle是一种存储Pandas数据帧的序列化方式。您基本上是将数据帧的确切表示写入光盘。这意味着列的类型相同,索引也相同。如果您只是将文件另存为csv,则只需将其存储为逗号分隔列表即可。根据您的数据集,当您重新加载时,某些信息将会丢失。
答案 1 :(得分:6)
to_parquet
,read_parquet
)