我使用scikit制作有监督的分类器,我正在调整它以使我对标记数据具有良好的准确性。但是,我如何估计它对测试数据的影响程度(未标记)?
另外,如何判断我是否开始过度分类?
答案 0 :(得分:2)
您无法在未标记的数据上对方法进行评分,因为您需要知道正确的答案。为了评估方法,您应该将您的列车集分成(新)列车和测试(例如,通过sklearn.cross_validation.train_test_split)。然后将模型安装到火车上并在测试时对其进行评分。 如果您没有大量数据并且其中一些数据可能会对算法的性能产生负面影响,请使用cross validation。
由于过度拟合无法概括,低测试分数是一个很好的指标。
有关更多理论和其他方法,请查看this article。