应用错误收集

操作条件算法？

时间：2012-11-24 20:58:54

标签： algorithm machine-learning artificial-intelligence neural-network artificial-life

为代理人实施实时操作性条件（基于监督奖励/惩罚的学习）的最佳方法是什么？我应该使用神经网络（以及什么类型）？或其他什么？

我希望代理能够接受像狗一样的命令训练。命令将以触摸屏上的手势的形式。我希望代理能够被训练以遵循路径（在连续的2D空间中），对命令进行行为更改（由FSM状态转换建模），并执行一系列操作。

代理将处于模拟的物理环境中。

1 个答案:

答案 0 :(得分：2)

Reinforcement Learning是针对您的问题的一个很好的机器学习算法。

基本强化学习模型包括：

一组环境状态S（你有一个2d空间以某种方式离散化，这是狗的当前位置，如果你想连续2d空间，你可能需要一个神经网络作为值函数映射器。）
一组动作A（你提到狗执行一系列动作，例如移动，旋转）
状态之间的转换规则（您的狗的位置转换可以通过FSM建模）
确定过渡的标量即时奖励r的规则（当达到目标位置时，您可能想要给予狗一个很大的奖励，而在中间里程碑也欢迎小奖励）
描述代理观察内容的规则。（狗的视野可能有限，例如，只有4或8个相邻的细胞是可见的，下图是显示狗的当前位置P以及可以看到狗的4个相邻细胞的示例。）

enter image description here

要找到最佳策略，您可以从无模型技术开始 - q-learning。