python - 从Actor-critic的损失函数中获得负的总损失

我正在尝试使用张量流实现actor-critic，我为actor-critic定制损失函数，如下所示：

As = V_next - V  
loss_policy = tf.keras.losses.SparseCategoricalCrossentropy()(y_Action_Index, Action_logit) * As  
loss_value = 0.5 * tf.square(As) # minimize value error  
entropy = 0.01 * tf.reduce_sum(Action_Prob * tf.math.log(Action_Prob + 1e-15), axis=1)  
loss_total = tf.reduce_sum(loss_policy + loss_value + entropy)

我在训练时损失了很多。而且，当优点（As）为负时，在训练后采取行动的时间不会减少。可能性正在增加。我的损失功能有问题吗？

从Actor-critic的损失函数中获得负的总损失

0 个答案: