我无法理解SARSA算法: http://en.wikipedia.org/wiki/SARSA
特别是,在更新Q值时,什么是gamma?什么值用于s(t + 1)和a(t + 1)?
有人可以向我解释这个算法吗?
感谢。
答案 0 :(得分:4)
Gamma确定您的算法有多少内存。如果将其设置为0.0,则算法根本不会更新值函数 Q 。如果将其设置为1.0,那么新体验的重量将与之前的所有体验相结合。最佳值介于两者之间,必须通过实验确定。
以下是它的工作原理:
实际上,value函数只是每个操作和每个状态的这些更新值的运行平均值。