我正在使用Gym工具包来创建自己的环境,并使用keras-rl在代理中使用我的环境。 问题是我的动作空间发生变化,这取决于实际状态。 例如,我有46种可能的动作,但是在某种状态下,只有7种可用,而我无法找到对其进行建模的方法。
我已经阅读了问题open-ai-enviroment-with-changing-action-space-after-each-step
但这不能解决我的问题。
“健身房文档”中没有执行此操作的说明,只有Github存储库上的一个问题(仍未解决)。 我不了解代理(keras-rl,dqn代理)如何采取行动,是随机选择的吗?但是从哪里来?
有人可以帮我吗?想法?
答案 0 :(得分:0)
我已经解决了这一问题,只是忽略了任何无效动作,而让探索机制阻止其卡住。快速,简单,但可能是更好的方法。
我认为更好的选择是以某种方式将选择该动作的可能性设置为零,但是我一直很难弄清楚该怎么做。