使用pandas缓存CSV读取数据以进行多次运行

时间:2016-11-08 08:01:23

标签: python csv pandas dataframe

我试图将机器学习(带有scikit-learn的Python)应用于存储在大约2.2千兆字节的CSV文件中的大数据。

由于这是一个部分经验过程,我需要多次运行脚本,导致pandas.read_csv()函数被反复调用,这需要花费很多时间。

显然,这是非常耗时的,所以我想必须有一种方法可以更快地读取数据 - 比如以不同的格式存储或以某种方式缓存它。

解决方案中的代码示例非常棒!

1 个答案:

答案 0 :(得分:2)

我会将已解析的DF存储为以下格式之一:

所有这些都非常快

知道你要存储什么样的数据(什么是dtypes)很重要,因为它可能会显着影响速度