我有一个具有功耗( p )和延迟( d )参数的目标函数。我希望在给定延迟约束(秒)的情况下最小化功耗。优化问题可以用拉格朗日函数表示如下:
f(p,d) = p + L*d
其中 L 是拉格朗日变量。由于功耗和延迟彼此成反比并减少前者导致后者增加,因此目标函数也可以用相对权重来表示:
f(p,d) = L*p + (1-L)*d
问题是,“考虑到 d 秒的延迟约束,我如何找到可以最小化变量的 L 的适当值p ?“即可。我想为此目的使用强化学习,在每个状态下,系统根据上述功能做出决定并为下一状态中的先前动作分配成本。每个操作都会在处理请求时产生一定的功耗和延迟。目标是在给定延迟约束的情况下最小化功耗。任何有关这方面的建议/提示都将受到高度赞赏。