在我执行ppo时,权重突然变成了纳

时间:2017-12-21 07:05:43

标签: tensorflow

我正在尝试在Tensorflow中实现PPO。 (近端政策优化)

它在Opengym中学到了InvertedPendulum和HalfCheetah,但通常重量突然变成了nan。我不认为它做了什么,比如除以0或log(0)。我想知道为什么会这样。

现在我通过取消训练来处理这个问题,并在损失变为纳秒时回到最后的权重变量。

from django.contrib.auth.admin import UserAdmin
admin.site.register(CustomUserModel, UserAdmin)

我的完整代码在这里:https://pastebin.com/KxqVqXQF
我参考这些网站制作了这段代码:

https://qiita.com/sugulu/items/8925d170f030878d6582#ppo%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0%E8%A7%A3%E8%AA%AC

http://proceedings.mlr.press/v70/chou17a/chou17a.pdfs

更新 抱歉,上面的超参数值存在一些错误:
self.learning_rate = tf.maximum(tf.train.exponential_decay(LEARNING_RATE,self.global_step,1000,0.99,阶梯=真),1e-6)
应该是 self.learning_rate = tf.maximum(tf.train.exponential_decay(LEARNING_RATE,self.global_step,1000,0.98,staircase = True),1e-6)

0 个答案:

没有答案