我试图将机器学习(带有scikit-learn的Python)应用于存储在大约2.2千兆字节的CSV文件中的大数据。
由于这是一个部分经验过程,我需要多次运行脚本,导致pandas.read_csv()
函数被反复调用,这需要花费很多时间。
显然,这是非常耗时的,所以我想必须有一种方法可以更快地读取数据 - 比如以不同的格式存储或以某种方式缓存它。
解决方案中的代码示例非常棒!
答案 0 :(得分:2)
我会将已解析的DF存储为以下格式之一:
所有这些都非常快
知道你要存储什么样的数据(什么是dtypes)很重要,因为它可能会显着影响速度