强化学习-应用Q学习来安排卡车发车时间以优化包裹交付

时间:2019-05-10 06:54:15

标签: machine-learning optimization simulation netlogo reinforcement-learning

我有一个基于代理的模型,用于模拟使用7辆卡车的包裹运输。卡车都在仓库待命。我可以手动操纵每辆卡车在不同负荷情况下的发车时间,并评估其性能(见图1)。

enter image description here

但是,我正在寻找一种更优化的方式来安排每辆卡车的发车时间,以便我可以最大程度地减少包裹的延迟交付,并实现比承诺的更早交付。获悉的结果可能类似于以下内容(参见图2),在该模型中,模型可以明智地确定出派出每辆卡车的最佳时间。注意:卡车发车时间直接影响包裹的按时送达性能。

Fig.2

我知道每辆卡车都可以有一个Q表,其中包含所有出发时间选项。但是,我不确定如何将最终结果(这是所有卡车的综合结果,即包裹的总延误和早期交付的包裹的总数)与每辆卡车的个别学习和Q值更新联系起来。谁能解释在这种特定情况下的操作(似乎需要在每辆卡车之间进行协调以提高整体性能)?还有其他值得考虑的搜索方法吗?

0 个答案:

没有答案