Question

我正在研究系统的电源管理。我希望最小化的目标是功耗和平均延迟。我有一个目标函数，具有两个目标的线性加权和：

C=w.P_avg+(1-w).L_avg,      where w belongs to (0,1)

我正在使用Q-learning通过改变权重w并设置不同的功耗和平均延迟偏好来找到帕累托最优权衡曲线。我确实获得了帕累托最优曲线。我现在的目标是提供约束（例如，平均等待时间L_avg），从而调整/找到w的值以满足给定标准。我是一个在线算法，因此w的调整应该以在线方式进行。

我可以在这方面提供任何暗示或建议吗？

Answer 1

社区中有一个多目标强化学习分支。

理想是1：

为每个目标分配一系列代理。将由一个家族中的药剂获得的溶液与来自其他家族的药剂获得的溶液进行比较。协商机制用于找到满足所有目标的折衷解决方案。

还有一篇论文可能会让您感兴趣：

通过强化学习进行电力系统调度和电压稳定性的多目标优化。

我没有找到它的公共网址。