奖励值计算:Q-Learning

时间:2018-01-31 06:55:14

标签: python mathematical-optimization reinforcement-learning q-learning reward-system

我目前正致力于优化Q-Learning的奖励价值。所以现在我考虑两个计算特定奖励价值的值。由于这是与工作相关的,我无法指定我考虑的变量名称。奖励采用以下形式:reward = a + b其中a获取list: [10, 20, 40, 60, 80]的值,b可以是0 to infinityb ε [0,∞)范围内的任何值。即使b的值不会那么大,它也可以在该范围内取任何值。

所以情况如此:如果b类似于b=1300a=80reward = 1380的值a的优先级被{{1}黯然失色}}。是否有某种程度上我可以制定奖励,以便a和b的值具有相同的优先级,例如在计算奖励时具有50%的价值?

1 个答案:

答案 0 :(得分:1)

我建议应该解决您问题的一种方法是a和b的 regularize Q值。有很多方法可以做到这一点,但我认为 L1或L2正规化可以很好地解决您的问题。

简而言之,L2正则化是一个计算权重平方和的数学方程。

l2 regularization formula

上面的图片来自chioka.in