强化学习连续动作的界限

时间:2018-09-22 10:14:10

标签: tensorflow deep-learning reinforcement-learning

这是我通常看到的代码,sigma = mu * A_BOUND [1],sigma + 1e-4。但是,如果我的边界是[-240,240],该怎么办。 Sigma不足以真正探索。在这种情况下该怎么办,我也要乘以sigma吗?

0 个答案:

没有答案