基本上,对于依赖r
的内核,计算L2范数here,可以看到我们首先裁剪了该值。在tensorflow probability中,他们使用具有修改后的渐变的sqrt
,当grad(|x - x'|)
时用较大但有限的数字替换x=x'
。
我的问题是它们是否相等,或者是否更好?
答案 0 :(得分:0)
我已经检查了server {
listen 443;
ssl on;
ssl_certificate bundle_chained.crt;
ssl_certificate_key mykey.key;
server_name my_domin.com;
location / {
proxy_pass my_host:port;
proxy_set_header X-Forwarded-Proto https;
proxy_set_header Host $http_host;
proxy_redirect off;
}
}
的GPflow剪辑版本的渐变。结果令人惊讶,因为它为零。我确实希望它具有很高的价值。
简单的检查确认x=x'
的渐变应返回tf.sqrt(1e-40)
,但我不确定剪切后的版本是否正确。