应用错误收集

时间：2016-11-08 08:01:23

标签： python csv pandas dataframe

我试图将机器学习（带有scikit-learn的Python）应用于存储在大约2.2千兆字节的CSV文件中的大数据。

由于这是一个部分经验过程，我需要多次运行脚本，导致pandas.read_csv()函数被反复调用，这需要花费很多时间。

显然，这是非常耗时的，所以我想必须有一种方法可以更快地读取数据 - 比如以不同的格式存储或以某种方式缓存它。

解决方案中的代码示例非常棒！

答案 0 :(得分：2)

我会将已解析的DF存储为以下格式之一：

HDF5（快速，支持conditional reading / querying，支持各种压缩方法，支持by different tools/languages）
Feather（extremely fast - 在SSD驱动器上使用有意义）
Pickle（快速）

所有这些都非常快

知道你要存储什么样的数据（什么是dtypes）很重要，因为它可能会显着影响速度