强化学习中如何处理大的和大小变化的观察?

时间:2021-07-22 15:40:03

标签: reinforcement-learning

  • 在一张地图中,代理可以吃掉数千种物品。吃完后agent的分数增加。 map_items

  • 代理观察的大小取决于代理的分数。 obs_small

    obs_large

  • 由于agent的观察可以覆盖整个地图,我在(10000, )中定义了观察形状,并在agent观察小的时候用零填充输入。但我发现很难在 rl 中训练。

  • 我的问题

    有没有其他方法可以解决此类问题?

0 个答案:

没有答案