如何为强化学习中的优化选择奖励函数?

时间:2016-07-18 11:01:17

标签: optimization machine-learning artificial-intelligence reinforcement-learning markov

我正在制定一个顺序决策过程,其中给定一个州的可再生能源的电池控制器应遵循最小化全球目标的最优政策(最小化从电网购买的电力成本)。以下可以是供求方程式。

P_grid = P_house - P_solar + P_battery
(在每一步,我都知道P_house,P_solar,并且必须选择一个动作P_battery)。

国家 =(P_house,P_solar,能源)

操作(P_battery)是离散的,可以是正面的,也可以是负面的。

直观地,给定常数成本 ,奖励函数应为( - P_grid * Cost)。总体而言,对电网的依赖性较小。但是,对于表格Q学习案例,我的代理收敛到最优策略,使P_grid = 0(几乎)。这有点激烈,因为状态变量Energy在每个时间步都受到限制,反过来限制了我的行为(P_battery)。

我应该如何定义我的奖励功能以最小化全球目标并确保正确使用电池能量?

0 个答案:

没有答案