标签: reinforcement-learning
RL的模型定义为P^a_ss',动作空间是连续的。为了使代理知道无论代理做什么,env都会以自己的方式行事,我该怎么办?
P^a_ss'
学习env的状态转换也是可取的,RL完全可以胜任这项工作吗?如果是,则env在观察空间中只有一个连续变量x_0,并且有许多影响x_1, x_2, ...的隐藏因素x_0; x_1, x_2, ...也应该在观察空间中吗?如果没有,下一步我将在RNN旁边做什么?
x_0
x_1, x_2, ...