如果这是重新道歉 - 当然很多人都必须面对这个问题,但我没有找到相当讨论这个问题的帖子。我想找到最佳解决方案。
我有一个大型数据集存储为文本文件,其中每一行都是一个数据点。我想将数据用于监督学习问题,我不想将整个数据集保存在内存中。
我可以使用迭代器来读取数据而不将整个文件加载到内存中,但是如何执行随机测试/训练/验证拆分呢?
到目前为止我最好的想法:
弄清楚文档有多少行
随机分配线索引以测试/训练/验证
编写一个只读取这些行的生成器
对于(1)和(3),我想知道:最优雅的方法是什么? (在python 3中)