Question

我正在开发强化学习代理。

我的奖励结构如下

temp_sp_min

我的temp_sp_max是23.7，而zone_temperature是24.5。当我根据epsilon贪婪动作选择策略训练代理时，大约经过10000集后，我的奖励逐渐收敛。当我现在测试受过训练的代理时，该代理采取的操作就没有意义，这意味着temp_sp_min为小于{{1}}时，它正在采取措施，这进一步降低了zone_temperature。

我不明白我要去哪里错了。有人可以帮我弄这个吗？

谢谢

Answer 1

epsilon-greedy算法采取不合逻辑的动作是正常的，实际上那些动作应该是探索性的（概率为1ε的动作）。

但是我认为对于您的问题，这是您需要的上下文MAB算法，因为您的报酬取决于上下文/状态（当前温度）。尝试在LinUCB或DQN等条件下表现更好的其他算法。

奖励正在收敛，但在强化学习中行动不正确

1 个答案: