我目前正致力于优化Q-Learning的奖励价值。所以现在我考虑两个计算特定奖励价值的值。由于这是与工作相关的,我无法指定我考虑的变量名称。奖励采用以下形式:reward = a + b
其中a
获取list: [10, 20, 40, 60, 80]
的值,b
可以是0 to infinity
即b ε [0,∞)
范围内的任何值。即使b的值不会那么大,它也可以在该范围内取任何值。
所以情况如此:如果b类似于b=1300
和a=80
,reward = 1380
的值a
的优先级被{{1}黯然失色}}。是否有某种程度上我可以制定奖励,以便a和b的值具有相同的优先级,例如在计算奖励时具有50%的价值?
答案 0 :(得分:1)
我建议应该解决您问题的一种方法是a和b的 regularize Q值。有很多方法可以做到这一点,但我认为 L1或L2正规化可以很好地解决您的问题。
简而言之,L2正则化是一个计算权重平方和的数学方程。
上面的图片来自chioka.in。