这是一个输送机系统。框在A处进入系统并向C移动,在那里它们退出系统。对于B-> D也是如此。
路径A-> C上的框具有比框B-> D更高的优先级。箱子可以在每个广场停下来等待。如果A2和B2上都有一个方框,那么A2中的方框应首先通过X.
如果C2,C1,A2和B2上有方框,则B2中的方框应通过X并且A2上的方框等待,直到C1为空。否则它将阻塞路径B-> D。
如何使用神经网络解决这个问题? 因此,对于每一个转弯,我都想输入每个块的当前状态,因此我希望从下一个框应移动的位置获取。
例如: 系统状态: BOX出现在A1 结果: A1,A2
我不知道神经网络是否是解决这个问题的好工具,但我只是好奇。 感谢您输入:)
答案 0 :(得分:1)
您正在寻找的是一种将州与行动相对应的政策。
虽然您可以使用神经网络来存储策略,但您需要某种方式与环境进行交互以收集数据。
您所描述的是典型的强化学习问题。我建议你看看Q-learning。对于状态空间的大小,您可以轻松地将策略存储在表中,但是如果需要,神经网络也很容易与Q学习相结合(尽管使用非线性近似方案时无法确保收敛)。 / p>