我正在尝试在Tensorflow中实现PPO。 (近端政策优化)
它在Opengym中学到了InvertedPendulum和HalfCheetah,但通常重量突然变成了nan。我不认为它做了什么,比如除以0或log(0)。我想知道为什么会这样。
现在我通过取消训练来处理这个问题,并在损失变为纳秒时回到最后的权重变量。
from django.contrib.auth.admin import UserAdmin
admin.site.register(CustomUserModel, UserAdmin)
我的完整代码在这里:https://pastebin.com/KxqVqXQF
我参考这些网站制作了这段代码:
和
http://proceedings.mlr.press/v70/chou17a/chou17a.pdfs
更新
抱歉,上面的超参数值存在一些错误:
self.learning_rate = tf.maximum(tf.train.exponential_decay(LEARNING_RATE,self.global_step,1000,0.99,阶梯=真),1e-6)
应该是
self.learning_rate = tf.maximum(tf.train.exponential_decay(LEARNING_RATE,self.global_step,1000,0.98,staircase = True),1e-6)