奖励正在收敛,但在强化学习中行动不正确

时间:2019-10-03 09:21:29

标签: python reinforcement-learning policy

我正在开发强化学习代理。

我的奖励结构如下

temp_sp_min

我的temp_sp_max是23.7,而zone_temperature是24.5。当我根据epsilon贪婪动作选择策略训练代理时,大约经过10000集后,我的奖励逐渐收敛。当我现在测试受过训练的代理时,该代理采取的操作就没有意义,这意味着temp_sp_min为小于{{1}}时,它正在采取措施,这进一步降低了zone_temperature。

我不明白我要去哪里错了。有人可以帮我弄这个吗?

谢谢

1 个答案:

答案 0 :(得分:0)

epsilon-greedy算法采取不合逻辑的动作是正常的,实际上那些动作应该是探索性的(概率为1ε的动作)。

但是我认为对于您的问题,这是您需要的上下文MAB算法,因为您的报酬取决于上下文/状态(当前温度)。尝试在LinUCB或DQN等条件下表现更好的其他算法。