应用错误收集

我是从事大学项目强化学习的新手。该项目与优化x86硬件电源有关。我正在Linux发行版（16.04）中运行专有软件。目标是使用强化学习并优化系统的功能（将软件的性能降级降至最低）。专有软件是蜂窝网络。

我们已经知道，强化学习的主要功能模块是 Agent 和 Environment 。基本思想是使用在x86硬件上运行的蜂窝网络作为RL的环境。该环境使用状态，操作和奖励与实现RL的代理进行交互。

通过阅读不同的材料，我可以理解，我需要将软件制作为自定义环境，从中可以检索state功能。 state功能是应用程序层KPI，例如延迟，吞吐量。 Action空间可能包含有关Linux更改电源的说明（我可以使用一些预定义的电源选项集）。我还没有决定奖励功能。

我阅读了this帖子，并决定应该使用OpenAI Gym创建我的自定义环境。

我的疑问是，使用OpenAI Gym创建自定义环境（针对此类设置）是正确的。我是否朝着正确的方向发展？或者是否有任何其他/最佳工具来创建自定义环境。创建此自定义环境的任何教程或指导都将受到赞赏。