操作条件算法?

时间:2012-11-24 20:58:54

标签: algorithm machine-learning artificial-intelligence neural-network artificial-life

为代理人实施实时操作性条件(基于监督奖励/惩罚的学习)的最佳方法是什么?我应该使用神经网络(以及什么类型)?或其他什么?

我希望代理能够接受像狗一样的命令训练。命令将以触摸屏上的手势的形式。我希望代理能够被训练以遵循路径(在连续的2D空间中),对命令进行行为更改(由FSM状态转换建模),并执行一系列操作。

代理将处于模拟的物理环境中。

1 个答案:

答案 0 :(得分:2)

Reinforcement Learning是针对您的问题的一个很好的机器学习算法。

基本强化学习模型包括:

  • 一组环境状态S(你有一个2d空间以某种方式离散化,这是狗的当前位置,如果你想连续2d空间,你可能需要一个神经网络作为值函数映射器。)
  • 一组动作A(你提到狗执行一系列动作,例如移动,旋转)
  • 状态之间的转换规则(您的狗的位置转换可以通过FSM建模)
  • 确定过渡的标量即时奖励r的规则(当达到目标位置时,您可能想要给予狗一个很大的奖励,而在中间里程碑也欢迎小奖励)
  • 描述代理观察内容的规则。 (狗的视野可能有限,例如,只有4或8个相邻的细胞是可见的,下图是显示狗的当前位置P以及可以看到狗的4个相邻细胞的示例。)

enter image description here

要找到最佳策略,您可以从无模型技术开始 - q-learning