randomForest:如何获得100%-Precision?

时间:2011-10-03 21:20:47

标签: r machine-learning

我有一个大约3000个正样本和1500个负样本的数据集,大约有1000个特征。所有功能都是实数。我想训练一个带有“randomForest”R包的randomForest分类器。

问题是我想在训练数据集上使用100%精度(TP / TP + FP)的分类器。但是,我很难通过调整训练随机森林中的$ votes来实现这一点。

我想知道是否有人对此类问题有过经验或有任何想法?如果您有任何线索,请给我一些提示。提前谢谢!

我对任何其他机器学习方法持开放态度,如果它向我保证100%精确度。

1 个答案:

答案 0 :(得分:1)

如果您无法通过修改投票分数阈值来实现,那么您将不得不以某种方式修改树本身。

实现此目的的一种方法是实际训练加权树。不幸的是,我现在没有指针,但这与Viola/Jones paper here中所做的类似(但它们是为了提升而做的。)

(有一个想法你看过参数:classwt,其评论为“类的引物。不需要加一个。忽略回归。”)this page?< / p>

一个快速点:误报率不等于FP / (FP + TP)。它实际上是FP / (FP + TN)或等效FP / "actual negatives",因为您实际上只想考虑有多少误报被检测为实际负数的函数。