machine-learning - 强化学习-应用Q学习来安排卡车发车时间以优化包裹交付

我有一个基于代理的模型，用于模拟使用7辆卡车的包裹运输。卡车都在仓库待命。我可以手动操纵每辆卡车在不同负荷情况下的发车时间，并评估其性能（见图1）。

但是，我正在寻找一种更优化的方式来安排每辆卡车的发车时间，以便我可以最大程度地减少包裹的延迟交付，并实现比承诺的更早交付。获悉的结果可能类似于以下内容（参见图2），在该模型中，模型可以明智地确定出派出每辆卡车的最佳时间。注意：卡车发车时间直接影响包裹的按时送达性能。

我知道每辆卡车都可以有一个Q表，其中包含所有出发时间选项。但是，我不确定如何将最终结果（这是所有卡车的综合结果，即包裹的总延误和早期交付的包裹的总数）与每辆卡车的个别学习和Q值更新联系起来。谁能解释在这种特定情况下的操作（似乎需要在每辆卡车之间进行协调以提高整体性能）？还有其他值得考虑的搜索方法吗？

强化学习-应用Q学习来安排卡车发车时间以优化包裹交付

0 个答案: