无法理解这一流行的深度Q学习计划

时间:2017-04-21 07:32:00

标签: machine-learning deep-learning reinforcement-learning

https://github.com/yenchenlin/DeepLearningFlappyBird/blob/master/deep_q_network.py#L82

我花了很多时间来理解它。

为什么要使用tf.multiply

我找不到支持这种乘法运算的数学运算。

1 个答案:

答案 0 :(得分:0)

每个操作都有一个Q_value。

行动输入a是一热的。

所以这一行就是选择“热”' Q_value。