应用错误收集

加强对不受代理影响的环境的学习

时间：2018-07-05 06:45:54

标签： reinforcement-learning

RL的模型定义为P^a_ss'，动作空间是连续的。为了使代理知道无论代理做什么，env都会以自己的方式行事，我该怎么办？

学习env的状态转换也是可取的，RL完全可以胜任这项工作吗？如果是，则env在观察空间中只有一个连续变量x_0，并且有许多影响x_1, x_2, ...的隐藏因素x_0； x_1, x_2, ...也应该在观察空间中吗？如果没有，下一步我将在RNN旁边做什么？

0 个答案:

没有答案