为代理人实施实时操作性条件(基于监督奖励/惩罚的学习)的最佳方法是什么?我应该使用神经网络(以及什么类型)?或其他什么?
我希望代理能够接受像狗一样的命令训练。命令将以触摸屏上的手势的形式。我希望代理能够被训练以遵循路径(在连续的2D空间中),对命令进行行为更改(由FSM状态转换建模),并执行一系列操作。
代理将处于模拟的物理环境中。
答案 0 :(得分:2)
Reinforcement Learning是针对您的问题的一个很好的机器学习算法。
基本强化学习模型包括:
S
(你有一个2d空间以某种方式离散化,这是狗的当前位置,如果你想连续2d空间,你可能需要一个神经网络作为值函数映射器。)A
(你提到狗执行一系列动作,例如移动,旋转)r
的规则(当达到目标位置时,您可能想要给予狗一个很大的奖励,而在中间里程碑也欢迎小奖励)P
以及可以看到狗的4个相邻细胞的示例。)
要找到最佳策略,您可以从无模型技术开始 - q-learning。