Question

我有一个大小为6 GB的CSV格式的培训数据集，我需要对其进行分析并实现机器学习。我的系统RAM是6 GB，因此我无法将文件加载到内存中。我需要执行随机采样并从数据集中加载样本。样品数量可根据要求而变化。这该怎么做？

Answer 1

开始时的事情：

with open('dataset.csv') as f:
    for line in f:
        sample_foo(line.split(","))

这将在内存中一次只加载一行，而不是整个文件。