标签: tensorflow deep-learning reinforcement-learning
这是我通常看到的代码,sigma = mu * A_BOUND [1],sigma + 1e-4。但是,如果我的边界是[-240,240],该怎么办。 Sigma不足以真正探索。在这种情况下该怎么办,我也要乘以sigma吗?