应用错误收集

测试/训练/验证大型数据集的拆分

时间：2017-05-30 15:50:23

标签： python-3.x machine-learning training-data

如果这是重新道歉 - 当然很多人都必须面对这个问题，但我没有找到相当讨论这个问题的帖子。我想找到最佳解决方案。

我有一个大型数据集存储为文本文件，其中每一行都是一个数据点。我想将数据用于监督学习问题，我不想将整个数据集保存在内存中。

我可以使用迭代器来读取数据而不将整个文件加载到内存中，但是如何执行随机测试/训练/验证拆分呢？

到目前为止我最好的想法：

弄清楚文档有多少行
随机分配线索引以测试/训练/验证
编写一个只读取这些行的生成器

对于（1）和（3），我想知道：最优雅的方法是什么？（在python 3中）

0 个答案:

没有答案