我希望我的RL代理能够尽快达到目标,同时尽量减少使用特定资源T的次数(有时候这是必要的)。
我考虑将立即奖励设置为每步-1,如果代理使用T,则额外增加-1,如果达到目标则增加0。
但是额外的-1是完全随意的,我如何决定代理人使用T会受到多少惩罚呢?
答案 0 :(得分:1)
您应该使用模仿自己价值的奖励功能。如果资源昂贵(对您有价值),那么消费它的惩罚应该是严厉的。同样的事情是时间(如果你考虑它也是一种资源)。
如果两种惩罚(时间消耗和资源消耗的惩罚)之间的比例与您对这些资源的估价方式一致,那么代理人将根据您的利益采取行动。如果你弄错了(因为你可能不知道资源的精确成本和慢速学习的确切成本),那么它将争取伪最优解决方案而不是最优解决方案,在很多情况下是好的。