两个算法之间FP和FN率的差异

时间:2018-03-13 15:28:58

标签: performance machine-learning confusion-matrix false-positive

我在使用和不使用PCA的情况下使用逻辑回归进行二元分类。与逻辑回归相比,在逻辑回归之前应用PCA可以提供更高的准确度和更低的FN。我想找出为什么会发生这种情况,特别是为什么PCA会产生更少的FN。我读过成本敏感度分析可以帮助解释这一点,但我不确定这是否正确。有什么建议?

1 个答案:

答案 0 :(得分:0)

不需要花哨的分析来解释这种行为。

PCA仅用于"清洁"数据通过限制其方差。让我用一个例子来解释这个概念,然后我将回到你的问题。

通常,在任何ML问题中,可用样本的数量永远不足以涵盖样本空间的所有可能变化。您永远不会拥有包含所有可能的人脸的数据集,以及所有可能的表达式等。

因此,您可以通过一种方式设计功能(在此示例中为像素),而不是使用所有可用功能,从而获得更有意义的更高级别功能。例如,您可以降低图片的分辨率;你会松开图片背景上的信息,但你的模型会更好地关注图片中最重要的部分,即面部。

当您处理表格数据时,类似于降低分辨率的技术会切断部分原始功能,这就是PCA所做的事情:它保留了功能中最重要的组成部分,&#34 ;主要组件",放弃不那么重要的组件。

因此,使用PCA训练的模型可以获得更好的结果,因为通过切断部分特征,您的模型更好地关注样本中最重要的部分,因此它可以获得过度拟合的稳健性。

欢呼声