标签: reinforcement-learning markov-decision-process
嗨, 我们已经学习了如何为情景任务,更具体地说是终端状态值为0的任务计算V *。但是,由于没有终端状态,我真的陷入了这个问题,请问有人可以解释吗?