应用错误收集

强化学习连续动作的界限

时间：2018-09-22 10:14:10

标签： tensorflow deep-learning reinforcement-learning

这是我通常看到的代码，sigma = mu * A_BOUND [1]，sigma + 1e-4。但是，如果我的边界是[-240,240]，该怎么办。 Sigma不足以真正探索。在这种情况下该怎么办，我也要乘以sigma吗？

0 个答案:

没有答案