应用错误收集

时间：2017-07-19 19:37:31

标签： neural-network artificial-intelligence reinforcement-learning

我希望我的RL代理能够尽快达到目标，同时尽量减少使用特定资源T的次数（有时候这是必要的）。

我考虑将立即奖励设置为每步-1，如果代理使用T，则额外增加-1，如果达到目标则增加0。

但是额外的-1是完全随意的，我如何决定代理人使用T会受到多少惩罚呢？

答案 0 :(得分：1)

您应该使用模仿自己价值的奖励功能。如果资源昂贵（对您有价值），那么消费它的惩罚应该是严厉的。同样的事情是时间（如果你考虑它也是一种资源）。

如果两种惩罚（时间消耗和资源消耗的惩罚）之间的比例与您对这些资源的估价方式一致，那么代理人将根据您的利益采取行动。如果你弄错了（因为你可能不知道资源的精确成本和慢速学习的确切成本），那么它将争取伪最优解决方案而不是最优解决方案，在很多情况下是好的。