python - 强化学习训练中的不同环境形态

我正在尝试制作一个用于调度的 RL 模型。目标是在计划中找到最佳位置，以插入具有不同约束集的任务。我的环境可以看作是一个网格，其中 x 轴是一个固定的时间长度（例如：2 年）。我的 y 轴是项目数。

我遇到的问题/困惑是，对于我的数据集中不同的日程安排，它们都有不同数量的项目。

所以不像国际象棋总是 8x8 棋盘，我的网格会从 (t,n) 变为 (t, n+x)

在制作此模型时，这将如何影响训练和任何注意事项？是否有任何算法可以帮助缓解这种情况？