我是从事大学项目强化学习的新手。该项目与优化x86硬件电源有关。我正在Linux发行版(16.04)中运行专有软件。目标是使用强化学习并优化系统的功能(将软件的性能降级降至最低)。专有软件是蜂窝网络。
我们已经知道,强化学习的主要功能模块是 Agent 和 Environment 。基本思想是使用在x86硬件上运行的蜂窝网络作为RL的环境。该环境使用状态,操作和奖励与实现RL的代理进行交互。
通过阅读不同的材料,我可以理解,我需要将软件制作为自定义环境,从中可以检索state
功能。 state
功能是应用程序层KPI,例如延迟,吞吐量。 Action
空间可能包含有关Linux更改电源的说明(我可以使用一些预定义的电源选项集)。我还没有决定奖励功能。
我阅读了this帖子,并决定应该使用OpenAI Gym创建我的自定义环境。
我的疑问是,使用OpenAI Gym创建自定义环境(针对此类设置)是正确的。我是否朝着正确的方向发展?或者是否有任何其他/最佳工具来创建自定义环境。创建此自定义环境的任何教程或指导都将受到赞赏。