标签: reinforcement-learning q-learning
据我了解,代理人不可能学会避免动态障碍或达到动态目标,因为在培训期结束后,代理遵循静态策略,该策略描述了为每个州执行的操作。
我已经实现了一个简单的网格迷宫,证明了我的假设是正确的。 现在,我使用表格q学习。但我认为深度学习不会更好。
您对如何克服这个问题有任何想法,并学习如何避免动态障碍并实现动态目标?