标签: reinforcement-learning
在强化学习中是否有关于如何学习多个决定的工作?例如,一家公司可能想知道如何设置最佳价格以及如何同时从供应商处补充产品。在这种情况下,RL中的代理需要同时学习两个策略。任何算法都可以达到这个目标吗?
我尝试搜索多个策略,多个代理和多个对象。但是我不确定它们是否是解决问题的正确方法。