我正在为机器学习准备一些数据。 这个问题很容易,但是我有点困惑。
让我们假设有一个系统每1小时大约有100个警报,而只有1或2个警报是它们的真实警报。假警报将被人忽略。我收集了一些看起来像特征的数据,并将标签0或1标记为伪造或真实警报。
在这种情况下,实际警报是0还是1?这样,TP,TN,FP,FN,机会级别将被更改。我们感兴趣的是真正的警报,即使所有警报都由人工手动检查,我们也不想错过。
几乎警报是假的,因此机会级别将超过95%。那么,主要类别和正面类别将是1,并发出假警报?但是我们的兴趣不是假警报。 在这种情况下应如何设置标签?
答案 0 :(得分:1)
由于损失函数不受标记1或0的方式的影响,因此这两种方法对模型的性能同样适用。我个人认为,假冒的应该使用0,真实的应该使用1。