在强化学习中纳入有关环境的其他知识

时间:2019-12-10 18:25:12

标签: reinforcement-learning

我遇到一个问题,我需要以固定的步数从A到B,例如 n 。在每个状态下,都有两个可用操作( left right )。动作 left 的成本为零,但动作 right 的成本取决于当前状态。如果我知道只需要执行正确 k 次才能满足自己的约束条件,该如何将这些附加信息纳入RL模型?奖励功能应如何建模?哪些算法适合解决此问题?

0 个答案:

没有答案