汤普森采样期间给定状态变化的奖励概率

时间:2018-11-14 20:20:17

标签: reinforcement-learning

例如,在多武装匪徒中: 假设该算法已经找到了最好的机器。 如果机器的配置突然改变怎么办? (更改奖励概率) 算法会重新调整并找到最佳的新机器吗?

0 个答案:

没有答案