应用错误收集

定义对价格敏感的奖励

时间：2019-12-13 19:40:01

标签： deep-learning reinforcement-learning dqn

我正在建立一个RL模型来控制电池的充电。目的是最大程度地减少一天中的总成本。到目前为止，我只看到了-1、0或1的奖励，但是，就我而言，一天中的电价是变化的，这使我的奖励功能连续不断。到目前为止，我尝试过DQN和PPO都没有成功，他们似乎没有学习（接近）最佳策略。 PPO迅速收敛到某些政策（绝对不是（接近）最佳政策）。有什么建议吗？

归一化价格如下：

if

0 个答案:

没有答案

sales_flat_order中的base_subtotal_incl_tax字段包含的价格包括magento中的奖励积分货币
定义Prestashop的折扣销售价格
如何在MySql查询中定义原价之间的销售价格％？
奖励积分与opencart奖励积分价格有什么区别？
每日奖励卡片游戏
如何让Unity显示奖励视频价格或奖励金额
Opencart 3.x-以奖励积分显示价格-特色首页
强化学习：如何定义生存时间的奖励？
定义对价格敏感的奖励
根据条件定义入场价格

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？