强化学习训练中的不同环境形态

时间:2021-01-31 19:08:06

标签: python algorithm tensorflow machine-learning reinforcement-learning

我正在尝试制作一个用于调度的 RL 模型。目标是在计划中找到最佳位置,以插入具有不同约束集的任务。我的环境可以看作是一个网格,其中 x 轴是一个固定的时间长度(例如:2 年)。我的 y 轴是项目数。

我遇到的问题/困惑是,对于我的数据集中不同的日程安排,它们都有不同数量的项目。

所以不像国际象棋总是 8x8 棋盘,我的网格会从 (t,n) 变为 (t, n+x)

在制作此模型时,这将如何影响训练和任何注意事项? 是否有任何算法可以帮助缓解这种情况?

0 个答案:

没有答案