我正在开发强化学习代理。
我的奖励结构如下
temp_sp_min
我的temp_sp_max
是23.7,而zone_temperature
是24.5。当我根据epsilon贪婪动作选择策略训练代理时,大约经过10000集后,我的奖励逐渐收敛。当我现在测试受过训练的代理时,该代理采取的操作就没有意义,这意味着temp_sp_min
为小于{{1}}时,它正在采取措施,这进一步降低了zone_temperature。
我不明白我要去哪里错了。有人可以帮我弄这个吗?
谢谢
答案 0 :(得分:0)
epsilon-greedy算法采取不合逻辑的动作是正常的,实际上那些动作应该是探索性的(概率为1ε的动作)。
但是我认为对于您的问题,这是您需要的上下文MAB算法,因为您的报酬取决于上下文/状态(当前温度)。尝试在LinUCB或DQN等条件下表现更好的其他算法。