应用错误收集

时间：2020-07-03 20:58:59

标签： reinforcement-learning openai-gym hidden-markov-models

我一直在努力解决OpenAI体育馆的GuessingGame-v0环境。

在环境中，每个情节都会选择一个范围内的随机数，并且代理必须“猜测”该随机数是什么。仅向代理提供有关猜测是否太大或太小的观察结果。

研究了问题的框架后，我认为可以将问题框架化为隐马尔可夫模型，但我不确定如何做到。

每个情节中随机选择的数字都会发生变化，因此，我不知道随着目标状态不断变化，模型不必更改每个情节。

除了OpenAI提供的文档外，我找不到该环境或与其类似的任何环境上的任何资源。

非常感谢您提供有关如何解决此环境的帮助。

答案 0 :(得分：0)

我将其作为答案，这样人们就不必阅读评论列表。

您需要一个可以简单循环的程序：

生成随机数
座席猜测一个数字（在允许的猜测范围内）
测试数字是否在1％以内。
如果数字在1％以内，则停止迭代，也许在此时打印出猜测结果
如果迭代在步骤200，请停止迭代并可能产生一些结果，以给出最终的猜测数字，并且事实不在1％之内
如果不是200个步长或1％，则：a）如果数字太大，则记录猜测值并且该值太大，或者b）如果数字太大，则记录猜测值的值并且太低。遍历该数字范围。重复直到达到1％或200步的标准。

另一个对您的想法：您需要一个低位开始的数字和一个高位开始的数字吗？

有多种方法可以实现此解决方案。解决方案还可以通过一系列编程软件来实现。您使用的特定软件可能是您最熟悉的软件。

祝你好运！