从6GB csv文件中取样而不用Python加载

时间:2017-09-22 02:46:15

标签: python csv machine-learning dataset

我有一个大小为6 GB的CSV格式的培训数据集,我需要对其进行分析并实现机器学习。我的系统RAM是6 GB,因此我无法将文件加载到内存中。我需要执行随机采样并从数据集中加载样本。样品数量可根据要求而变化。这该怎么做?

1 个答案:

答案 0 :(得分:2)

开始时的事情:

with open('dataset.csv') as f:
    for line in f:
        sample_foo(line.split(","))

这将在内存中一次只加载一行,而不是整个文件。