应用错误收集

没有一般原则是什么＆＃34;太多＆＃34;。一切都完全取决于学习中可以获得的问题和吞吐量。特别是，只要Q（a，s）的内部参数化是有效的，动作的数量就不重要。举一些例子，假设神经网络实际上是NN（a，s）= Q（a，s）的形式，换句话说，它接受动作为输入，与状态一起，并输出Q值。如果这样的架构可以在所考虑的问题中进行训练，那么它可能能够扩展到大型行动空间;另一方面，如果神经网络基本上每个动作具有独立的输出，那么形式为NN（s）[a] = Q（a，s），则许多动作可能导致模型的相对稀疏的学习信号，从而导致缓慢收敛。

由于你问的是减少动作空间，听起来真正的问题有复杂的控制（可能它是一个连续的控制域？）而你正在寻找一些离散化以使其更容易学习。如果是这种情况，您将不得不遵循典型的试验和错误方法 - 尝试使用简单的动作空间，观察动态，如果结果不令人满意 - 增加问题的复杂性。这允许进行迭代改进，而不是朝着相反的方向 - 从过于复杂的设置开始以获得任何结果，而不必在不知道什么是合理的值的情况下减少它。

深度强化学习网络的Q值的数量

1 个答案: