标签: reinforcement-learning
我正在尝试实现一种简单的q学习算法。对于每个状态,我都有一个函数来定义离散的动作空间。我已经意识到,每个状态的动作空间都不同,有些动作空间可能包含2000个可能动作的元素,而另一些则只有10个可能的动作。这是培训的瓶颈吗?一个状态中的2000个可能动作太大吗?或者我只需要确保尽可能多的迭代次数来捕获广阔的动作空间?