标签: machine-learning neural-network q-learning
当我在强化学习中使用Q-Table进行保存状态动作时,某些状态从未(或很少)发生,状态动作值保持为零直到最大迭代,因此我决定使用神经网络在线估计Q-Table而不是使用Q-Table。
哪种类型的神经网络可以更准确地估计这类问题,这个解决方案对我有帮助吗?
答案 0 :(得分:0)
我使用Localy加权回归(LWR)作为函数逼近 并简单地用这个函数替换表