训练集和测试集之间的差异的阈值是多少?

时间:2019-05-28 21:33:23

标签: data-science data-science-experience

训练集和测试之间总是存在性能差异。我想知道这种差异的阈值是多少,可以接受还是不能接受?例如,训练的分数可能是87%,测试的分数是83%。 4%的差异可能是可以接受的。但是,如果87%的培训和测试只是60%。这20%可能表明过度拟合问题。所以我想知道是否有任何阈值?

1 个答案:

答案 0 :(得分:0)

在校舍之外,我的意思是在应用设置中,阈值由上下文决定。可以创建可以正确预测99%的时间的算法。如果我们是银行,您赚了钱吗?你不知道。该算法可以正确预测每笔1美元的贷款,并且总会丢失1000万美元的贷款。因此,这种算法的准确性,准确性,查全率,F分数……在这种情况下毫无意义。从业务或应用程序“询问”中倒退。这决定了阈值公差。