[MDP]:如何计算连续任务的最佳价值?

时间:2019-10-29 18:27:39

标签: reinforcement-learning markov-decision-process

enter image description here

嗨, 我们已经学习了如何为情景任务,更具体地说是终端状态值为0的任务计算V *。但是,由于没有终端状态,我真的陷入了这个问题,请问有人可以解释吗?

0 个答案:

没有答案