RL代理的重大损失

时间:2019-09-19 05:28:18

标签: artificial-intelligence reinforcement-learning

当我为各种问题实施代理人时...我发现演员损失正在按预期减少。但是,尽管学到的政策非常好,但我的批评家的损失仍在增加。 DDPG,PPO等会发生这种情况。

任何人都在思考为什么我的批评家的损失在增加。

我尝试使用超级参数,这实际上使我的政策更糟。

1 个答案:

答案 0 :(得分:4)

在强化学习中,您实际上通常不应该注意损失值的精确值。例如,他们在监督学习中的意义并不丰富。损失值仅应用于为您的RL方法计算正确的更新,但实际上并不能真正指示您的工作状况。

这是因为在RL中,您的学习目标通常是不稳定的;它们通常是您正在修改(希望有所改善!)的政策的功能。随着RL代理性能的提高,损失的可能性实际上会增加。由于它的改进,它可能会发现其搜索空间的新部分,从而导致您的代理以前完全没有意识到的新目标值。

您唯一真正可靠的指标是代理在评估过程中收集的回报。