应用错误收集

我已以此为参考在keras中构建了A3C实现：https://jaromiru.com/2017/03/26/lets-make-an-a3c-implementation/ 而且我正在使用自定义环境，在该环境中，代理商可以选择购买某些项目，并根据状态将其出售或交换。对于好交易，它会得到正向奖励；对于不好的交易，它会得到负向奖励。过去，我已经在DQN上对其进行了测试，并成功地收敛了，显示出了非常好的效果。但是，当我在A3C中使用相同的环境时，结果是模型只是一遍又一遍地选择相同的动作。我尝试更改一些超参数，但没有结果。我还尝试使用目标模型并每隔n集更新一次，这可以使它与Gym CartPole环境更好地融合，但仍对我的模型在自定义环境中的性能没有影响。我在reddit上找到了关于同一问题的一些讨论，但没有一个得到回答。任何想法都欢迎，谢谢。

A3C中的收敛问题

1 个答案: