讲座安德鲁·吴已经说过
J = -1 / m * sum(y * log(h(x))+(1-y)log(1-h(x)))
但在https://www.tensorflow.org/get_started/mnist/beginners中他们声明:
为什么他们使用这个公式?
答案 0 :(得分:1)
这是二元与分类方法。 Andrew Ng成本函数是二进制交叉熵(或logloss),而tensorflow教程中使用的是分类交叉熵。他们使用单热矢量编码来跨多个类别使用它。因此,即使对于两个类别,您也有一个像这样的标签:[0,1]。
在二进制情况下,0是虚假案例的标签。由于softmax分类器,所有元素无论如何需要总和为1,因此在仅有1个重要的分类情况下不存在这种情况。