标签: tensorflow large-data reinforcement-learning
我想使用流行的方法来实施具有大型操作集的DRL,以处理诸如策略梯度或参与者批评者之类的大型操作集。
但是,由于内存问题,我在利用TensorFlow中的算法时遇到了一些麻烦。例如,我有3125000个动作,而VRAM(要使用TenforFlow GPU版本)通常约为10 GiB。
我想了解在TensorFlow中设置大型操作来处理DRL的一般方法。