用神经网络强化学习

时间:2010-05-01 09:56:07

标签: machine-learning neural-network reinforcement-learning markov

  • 我正在与RL& NN
  • 我需要确定将被馈送到神经网络的动作矢量结构。

我有3种不同的动作(A& B& Nothing),每种动作都有不同的力量(例如A100 A50 B100 B50) 我想知道将这些行动提供给NN以获得最佳效果的最佳方法是什么?

1-输入A / B输入1,动作功率100/50 /无输入2

2-馈送A100 / A50 /无输入1,而B100 / B50 /无输入2

3-输入A100 / A50输入1,B100 / B50输入2,输入3输入Nothing

4-同时喂养100& 50或将它们标准化为2& 1?

我需要选择一种方法的原因 建议任何建议

由于

1 个答案:

答案 0 :(得分:1)

你想学什么?输出应该是什么? 输入只是用过的动作吗?如果您正在学习环境模型,则用概率分布表示:

P(next_state |州,行动)

对每个动作使用单独的模型是很常见的。 这使得输入和输出之间的映射更简单。 输入是状态特征的向量。输出是下一个状态的特征向量。模型暗示了使用过的操作。

状态特征可以编码为位。有效位表示存在特征。

这将学习确定性模型。我不知道学习下一个州的随机模型有什么好方法。一种可能是使用随机神经元。