标签: deep-learning reinforcement-learning dqn
我正在建立一个RL模型来控制电池的充电。目的是最大程度地减少一天中的总成本。到目前为止,我只看到了-1、0或1的奖励,但是,就我而言,一天中的电价是变化的,这使我的奖励功能连续不断。到目前为止,我尝试过DQN和PPO都没有成功,他们似乎没有学习(接近)最佳策略。 PPO迅速收敛到某些政策(绝对不是(接近)最佳政策)。 有什么建议吗?
归一化价格如下:
if