强化学习:动态障碍和动态目标

时间:2018-02-09 15:02:41

标签: reinforcement-learning q-learning

据我了解,代理人不可能学会避免动态障碍或达到动态目标,因为在培训期结束后,代理遵循静态策略,该策略描述了为每个州执行的操作。

我已经实现了一个简单的网格迷宫,证明了我的假设是正确的。 现在,我使用表格q学习。但我认为深度学习不会更好。

您对如何克服这个问题有任何想法,并学习如何避免动态障碍并实现动态目标?

0 个答案:

没有答案