应用错误收集

无法理解这一流行的深度Q学习计划

时间：2017-04-21 07:32:00

标签： machine-learning deep-learning reinforcement-learning

https://github.com/yenchenlin/DeepLearningFlappyBird/blob/master/deep_q_network.py#L82

我花了很多时间来理解它。

为什么要使用tf.multiply？

我找不到支持这种乘法运算的数学运算。

1 个答案:

答案 0 :(得分：0)

每个操作都有一个Q_value。

行动输入a是一热的。

所以这一行就是选择“热”＆＃39; Q_value。