标签: python csv machine-learning dataset
我有一个大小为6 GB的CSV格式的培训数据集,我需要对其进行分析并实现机器学习。我的系统RAM是6 GB,因此我无法将文件加载到内存中。我需要执行随机采样并从数据集中加载样本。样品数量可根据要求而变化。这该怎么做?
答案 0 :(得分:2)
开始时的事情:
with open('dataset.csv') as f: for line in f: sample_foo(line.split(","))
这将在内存中一次只加载一行,而不是整个文件。