如何有选择地选择训练和测试数据

时间:2017-06-30 22:59:11

标签: python machine-learning scikit-learn cross-validation

当您执行cross_validation.train_test_split(features,labels,test_size)时,它是一个通过cross_validation自动拆分为训练和测试数据的数据集,但您如何训练和测试两组不同的数据?因此,如果训练数据在一个文件中并且测试数据在另一个文件中,并且您希望首先使用训练文件训练数据,然后使用测试文件进行测试,您如何做到这一点?因为cross_validation只接受一组数据并将其拆分为train并自动测试。

谢谢!

1 个答案:

答案 0 :(得分:4)

如果只有一个分割,则没有交叉验证,您只需在一个数据集上进行训练并检查测试结果的准确性(或其他指标),而不使用CV(因为,如前所述 - 对于单个拆分,没有像CV这样的问题。这是CV所用的精确对立面。 CV已被引入,因为单次拆分不足以有效估算小型数据集的测试