标签: machine-learning
正如您在图像中看到的,AlphaGo Zero神经网络使用损失函数,该函数使用MCTS概率和值作为地面实况标签。我试图了解神经网络的输出是否被视为logits(例如实值)或原始概率([0,1])。在损失函数中,看起来MCTS概率(我确信它位于[0,1]中)是向量乘以NN概率的对数。这是损失中的负面术语,但这个术语的大小表明两个向量的相似性是什么?为什么更大的值表示更多相似性?
答案 0 :(得分:1)
据说here解释了蒙特卡罗对交叉熵损失的估计。