标签: reinforcement-learning
我遇到一个问题,我需要以固定的步数从A到B,例如 n 。在每个状态下,都有两个可用操作( left 或 right )。动作 left 的成本为零,但动作 right 的成本取决于当前状态。如果我知道只需要执行正确次 k 次才能满足自己的约束条件,该如何将这些附加信息纳入RL模型?奖励功能应如何建模?哪些算法适合解决此问题?