它们看起来都像矩阵/数组。
我不是一个python专家,这些通用数据类型是在python中使用还是特定于健身房?
我正在阅读API,但仍然对这些实际上是什么感到困惑。
例如(来自文档)
print(env.action_space)
#> Discrete(2)
print(env.observation_space)
#> Box(4,)
为什么框上有逗号结尾?这代表什么吗?
Discrete
数据类型和Box
类型之间有什么区别?
根据我收集的数字,其中是尺寸。
Discrete
类似于数组,Box
类似于矩阵吗?
答案 0 :(得分:0)
离散是代理可以执行的一组动作,其中每个步骤只能选择一个。在这种情况下,动作没有可变性。例如,如果您有一个代理遍历网格世界,则在离散空间中执行的操作可能会告诉该代理向前移动,但是他们向前移动的距离是一个常数。
方框定义了代理可以在其中行动的空间,并允许在gridworld场景中使用可变的前进距离。
MultiDiscrete 允许一次执行多个操作,类似于 Box ,但是像 Discrete 一样,可以采取或采取不。没有0.1向前的步。
查看this question,了解有关如何使用 Box 的更多信息。
我找不到很好的内置文档,但是查看source code中的注释会有所帮助。