我刚刚阅读了作者发布的Inception-v3 paper及其培训代码。我发现RMSProp什么时候做 优化,作者使用epsilon=1。但是,据我所知,人们通常使用1e-10或一些小值,而Tensorflow将默认值设置为1e-10。
所以我的问题是epsilon将如何影响优化?为什么我们需要epsilon = 1? 谢谢!
答案 0 :(得分:0)
通过此github issue,我找到了解释价值的帖子:https://groups.google.com/a/tensorflow.org/d/msg/discuss/1JDPbuHN39w/AVXdYeaDCAAJ
在这篇文章中,一位初始v3作者解释说,他们需要这么高的epsilon来训练它与异步SGD,而较低的值可能实际上(更好)同步SGD。