加强对不受代理影响的环境的学习

时间:2018-07-05 06:45:54

标签: reinforcement-learning

RL的模型定义为P^a_ss',动作空间是连续的。为了使代理知道无论代理做什么,env都会以自己的方式行事,我该怎么办?

学习env的状态转换也是可取的,RL完全可以胜任这项工作吗?如果是,则env在观察空间中只有一个连续变量x_0,并且有许多影响x_1, x_2, ...的隐藏因素x_0x_1, x_2, ...也应该在观察空间中吗?如果没有,下一步我将在RNN旁边做什么?

0 个答案:

没有答案