从Actor-critic的损失函数中获得负的总损失

时间:2019-10-19 15:36:35

标签: python tensorflow reinforcement-learning

我正在尝试使用张量流实现actor-critic,我为actor-critic定制损失函数,如下所示:

As = V_next - V  
loss_policy = tf.keras.losses.SparseCategoricalCrossentropy()(y_Action_Index, Action_logit) * As  
loss_value = 0.5 * tf.square(As) # minimize value error  
entropy = 0.01 * tf.reduce_sum(Action_Prob * tf.math.log(Action_Prob + 1e-15), axis=1)  
loss_total = tf.reduce_sum(loss_policy + loss_value + entropy)

我在训练时损失了很多。而且,当优点(As)为负时,在训练后采取行动的时间不会减少。可能性正在增加。 我的损失功能有问题吗?

0 个答案:

没有答案