预测二进制分类

时间:2018-05-06 09:13:57

标签: python machine-learning

我最近一直在学习自学机器,现在我正在尝试解决binary classification problem(即:一个标签,可以是truefalse)。我将其表示为单个列,可以是10truefalse)。

尽管如此,我正在研究和阅读分类变量如何降低算法的有效性,以及应该如何one-hot encode它们或转换为dummy变量,从而以2个标签结束({{ 1}},variable_true)。

这是正确的方法吗?是否应该预测具有两个可能值的单个变量或具有固定唯一值的2个同时变量?

例如,我们要说我们要预测一个人是variable_false还是male

我们是否应该为该变量设置单个标签female并预测Gender1,或0Gender_Male

1 个答案:

答案 0 :(得分:0)

它基本相同,在谈到二进制分类时,你可以想到每个模型的最后一层,使输出适应其他模型

例如,如果模型输出0或1而不是最后一层将其转换为矢量,如[1,0]或[0,1],反之亦然,则通过阈值标准,通常是> = 0.5

最后一层中2个节点的一个很好的副产品是模型的置信水平,其预测[0.80,0.20]和[0.55,0.45]都会产生[1,0]分类,但第一个预测更有信心

这也可以从1节点输出推断出条纹1和0的输出距离,因此0.1作为0预测将被认为比0.3更有信心