标签: reinforcement-learning
就我而言,奖励的整个系统取决于要学习的神经网络中的损失函数。为了简化起见,假设损失函数为-R(rewards)。如果报酬是正的,而损失是负的,那么我们就放松模型。如果奖励为负数,则我们正在努力加强模型。这句话正确吗? 最后,更大的输出层值是否会导致更好的模型? 输出神经元的充气对于增加模型的复杂性和准确性是否必要? 或者损失函数中的正负R是否足以正确训练RL模型?