我有3种不同的动作(A& B& Nothing),每种动作都有不同的力量(例如A100 A50 B100 B50) 我想知道将这些行动提供给NN以获得最佳效果的最佳方法是什么?
1-输入A / B输入1,动作功率100/50 /无输入2
2-馈送A100 / A50 /无输入1,而B100 / B50 /无输入2
3-输入A100 / A50输入1,B100 / B50输入2,输入3输入Nothing
4-同时喂养100& 50或将它们标准化为2& 1?
我需要选择一种方法的原因 建议任何建议
由于
答案 0 :(得分:1)
你想学什么?输出应该是什么? 输入只是用过的动作吗?如果您正在学习环境模型,则用概率分布表示:
P(next_state |州,行动)
对每个动作使用单独的模型是很常见的。 这使得输入和输出之间的映射更简单。 输入是状态特征的向量。输出是下一个状态的特征向量。模型暗示了使用过的操作。
状态特征可以编码为位。有效位表示存在特征。
这将学习确定性模型。我不知道学习下一个州的随机模型有什么好方法。一种可能是使用随机神经元。