定义对价格敏感的奖励

时间:2019-12-13 19:40:01

标签: deep-learning reinforcement-learning dqn

我正在建立一个RL模型来控制电池的充电。目的是最大程度地减少一天中的总成本。到目前为止,我只看到了-1、0或1的奖励,但是,就我而言,一天中的电价是变化的,这使我的奖励功能连续不断。到目前为止,我尝试过DQN和PPO都没有成功,他们似乎没有学习(接近)最佳策略。 PPO迅速收敛到某些政策(绝对不是(接近)最佳政策)。 有什么建议吗?

归一化价格如下:

if

enter image description here

0 个答案:

没有答案