应用错误收集

[MDP]：如何计算连续任务的最佳价值？

时间：2019-10-29 18:27:39

标签： reinforcement-learning markov-decision-process

嗨，我们已经学习了如何为情景任务，更具体地说是终端状态值为0的任务计算V *。但是，由于没有终端状态，我真的陷入了这个问题，请问有人可以解释吗？

0 个答案:

没有答案