我有一个大约3000个正样本和1500个负样本的数据集,大约有1000个特征。所有功能都是实数。我想训练一个带有“randomForest”R包的randomForest分类器。
问题是我想在训练数据集上使用100%精度(TP / TP + FP)的分类器。但是,我很难通过调整训练随机森林中的$ votes来实现这一点。
我想知道是否有人对此类问题有过经验或有任何想法?如果您有任何线索,请给我一些提示。提前谢谢!
我对任何其他机器学习方法持开放态度,如果它向我保证100%精确度。
答案 0 :(得分:1)
如果您无法通过修改投票分数阈值来实现,那么您将不得不以某种方式修改树本身。
实现此目的的一种方法是实际训练加权树。不幸的是,我现在没有指针,但这与Viola/Jones paper here中所做的类似(但它们是为了提升而做的。)
(有一个想法你看过参数:classwt
,其评论为“类的引物。不需要加一个。忽略回归。”)this page?< / p>
一个快速点:误报率不等于FP / (FP + TP)
。它实际上是FP / (FP + TN)
或等效FP / "actual negatives"
,因为您实际上只想考虑有多少误报被检测为实际负数的函数。