我最近一直在学习自学机器,现在我正在尝试解决binary classification problem
(即:一个标签,可以是true
或false
)。我将其表示为单个列,可以是1
或0
(true
或false
)。
尽管如此,我正在研究和阅读分类变量如何降低算法的有效性,以及应该如何one-hot encode
它们或转换为dummy
变量,从而以2个标签结束({{ 1}},variable_true
)。
这是正确的方法吗?是否应该预测具有两个可能值的单个变量或具有固定唯一值的2个同时变量?
例如,我们要说我们要预测一个人是variable_false
还是male
:
我们是否应该为该变量设置单个标签female
并预测Gender
或1
,或0
和Gender_Male
?
答案 0 :(得分:0)
它基本相同,在谈到二进制分类时,你可以想到每个模型的最后一层,使输出适应其他模型
例如,如果模型输出0或1而不是最后一层将其转换为矢量,如[1,0]或[0,1],反之亦然,则通过阈值标准,通常是> = 0.5
最后一层中2个节点的一个很好的副产品是模型的置信水平,其预测[0.80,0.20]和[0.55,0.45]都会产生[1,0]分类,但第一个预测更有信心
这也可以从1节点输出推断出条纹1和0的输出距离,因此0.1作为0预测将被认为比0.3更有信心