ROC曲线显示奇怪的模式

时间:2016-01-19 15:58:10

标签: machine-learning classification roc

ROC curves

我有一个数据集,我添加了10-30%的人工数据并运行算法来分类哪些数据是原始的和什么是人为的。我得到了附加的ROC曲线。我从未见过ROC曲线那样结束。难道我做错了什么?或者这样的模式是可能的?如果是这样,它的解释是什么?

由于

1 个答案:

答案 0 :(得分:2)

如果您的目标数据具有不平衡的双峰分布,并且噪声/背景分布位于两种模式之间,您可以看到类似于您所显示的ROC曲线。最初(就像在你的情节中一样),当ROC曲线覆盖真阳性(TP)分布的主峰时,你的ROC曲线会急剧增加。接下来,你将有一个相对平坦的区域,你积累误报(FP),而TP没有太大的增加。然后,你会点击第二个TP集群。

我猜你的人工数据更接近主要TP集群的质心,这就是为什么添加更多的人工数据往往会削弱较小的TP集群,使其看起来更像典型的ROC曲线。

正如我在评论中提到的那样,在没有任何人工数据的情况下绘制ROC曲线是有益的。此外,可以提供信息,以显示在TP速率接近1的情节的尾端放大的版本(即,当它接近1时看它是否变平)。