我正在使用网格搜索来优化随机森林在平衡数据集上的超参数拟合,并且正在努力选择哪种模型评估指标。考虑到此问题的实际情况,假阴性比假阳性的代价更高。我最初尝试优化召回率,但最终却出现了大量的误报。我的解决方案是使用beta> 1来优化f-beta得分。我的问题是,如何最好地选择beta?如果我可以计算出假阴性和假阳性的成本,我可以设置beta =假阴性成本/假阳性成本吗?这种方法有意义吗?
答案 0 :(得分:0)
当您设置 beta =假阴性的费用/假阳性的费用时,如果假阴性的费用高于假阳性的费用,则您将赋予更多的权重,这样就可以了,但这并不意味着这是解决您问题的最佳解决方案。
优化Beta与数据的形状有关,因此最好在数据上尝试不同的Beta值,直到获得最佳价值为止。