应用错误收集

时间：2010-05-01 09:56:07

标签： machine-learning neural-network reinforcement-learning markov

我有3种不同的动作（A＆amp; B＆amp; Nothing），每种动作都有不同的力量（例如A100 A50 B100 B50）我想知道将这些行动提供给NN以获得最佳效果的最佳方法是什么？

1-输入A / B输入1，动作功率100/50 /无输入2

2-馈送A100 / A50 /无输入1，而B100 / B50 /无输入2

3-输入A100 / A50输入1，B100 / B50输入2，输入3输入Nothing

4-同时喂养100＆amp; 50或将它们标准化为2＆amp; 1？

我需要选择一种方法的原因建议任何建议

由于

答案 0 :(得分：1)

你想学什么？输出应该是什么？输入只是用过的动作吗？如果您正在学习环境模型，则用概率分布表示：

P（next_state |州，行动）

对每个动作使用单独的模型是很常见的。这使得输入和输出之间的映射更简单。输入是状态特征的向量。输出是下一个状态的特征向量。模型暗示了使用过的操作。

状态特征可以编码为位。有效位表示存在特征。

这将学习确定性模型。我不知道学习下一个州的随机模型有什么好方法。一种可能是使用随机神经元。