标签: tensorflow
我不完全确定两个渐变裁剪操作符clip_by_average_norm和clip_by_norm之间的区别。从文档中看,差异似乎是clip_by_norm使用l2norm而不是l2norm_avg。
clip_by_average_norm
clip_by_norm
l2norm
l2norm_avg
我理解梯度的L2范数是什么,但“平均L2范数”对应的是什么?
文档参考
答案 0 :(得分:2)
文档有点含糊不清,来自test和impl,似乎output.txt是avg_norm
output.txt
avg_norm
norm/len(vector)