我一直在努力解决OpenAI体育馆的GuessingGame-v0环境。
在环境中,每个情节都会选择一个范围内的随机数,并且代理必须“猜测”该随机数是什么。仅向代理提供有关猜测是否太大或太小的观察结果。
研究了问题的框架后,我认为可以将问题框架化为隐马尔可夫模型,但我不确定如何做到。
每个情节中随机选择的数字都会发生变化,因此,我不知道随着目标状态不断变化,模型不必更改每个情节。
除了OpenAI提供的文档外,我找不到该环境或与其类似的任何环境上的任何资源。
非常感谢您提供有关如何解决此环境的帮助。
答案 0 :(得分:0)
我将其作为答案,这样人们就不必阅读评论列表。
您需要一个可以简单循环的程序:
另一个对您的想法:您需要一个低位开始的数字和一个高位开始的数字吗?
有多种方法可以实现此解决方案。解决方案还可以通过一系列编程软件来实现。您使用的特定软件可能是您最熟悉的软件。
祝你好运!