标签: reinforcement-learning
在一张地图中,代理可以吃掉数千种物品。吃完后agent的分数增加。 map_items
代理观察的大小取决于代理的分数。 obs_small
obs_large
由于agent的观察可以覆盖整个地图,我在(10000, )中定义了观察形状,并在agent观察小的时候用零填充输入。但我发现很难在 rl 中训练。
我的问题
有没有其他方法可以解决此类问题?