具有函数逼近的Q学习,其中每个状态没有相同的动作集

时间:2016-08-24 17:34:10

标签: reinforcement-learning q-learning

我正在将Q-learning与函数逼近应用于每个状态没有相同操作集的问题。那时我正在计算目标

目标= R(s,a,s')+(max_a'* Q(s',a'))

由于每个州都没有相同的行动集,所以我是否应该在我的州定义中包含一组行动?否则发生的事情是两个状态在所有其他特征中可能彼此非常相似,除了事实上它们具有从那里开始可用的非常不同的一组动作。即使我包含一组动作,然后问题是向量的长度,因为每个状态具有不同的动作数。请帮帮我。

1 个答案:

答案 0 :(得分:0)

我的建议是将行动表达为功能的加权和。

例如,如果您使用的是神经网络,则输入图层将为状态,输出图层将为动作的特征。您可以将Q(s,a)计算为和(NN(s)_i * a_i),其中NN(s)_i是给定输入s的神经网络的第i个输出神经元的值,a_i是给定的权重以行动为特色。

这也可以被解释为具有在最后一层具有预定权重的单个神经网络,其对于每个输入是不同的。这在概念上非常混乱,但很容易编程。