我正在尝试使用张量流实现actor-critic,我为actor-critic定制损失函数,如下所示:
As = V_next - V
loss_policy = tf.keras.losses.SparseCategoricalCrossentropy()(y_Action_Index, Action_logit) * As
loss_value = 0.5 * tf.square(As) # minimize value error
entropy = 0.01 * tf.reduce_sum(Action_Prob * tf.math.log(Action_Prob + 1e-15), axis=1)
loss_total = tf.reduce_sum(loss_policy + loss_value + entropy)
我在训练时损失了很多。而且,当优点(As)为负时,在训练后采取行动的时间不会减少。可能性正在增加。 我的损失功能有问题吗?