标签: tensorflow reinforcement-learning q-learning
答案 0 :(得分:1)
这种混乱的损失轨迹通常意味着对于给定的损失函数平滑度,学习率太高。
另一种解释是,损失函数完全不能预测给定任务的成功。