我只是想知道是否有人能够为我提供一个很好的资料来阅读我应该如何根据问题的复杂性选择求解器的超参数。
基本上,我知道很多人都觉得他们是在黑暗中拍摄的"当涉及到设置然后修改这些参数时,基于特定问题/数据复杂性选择参数的系统或基准已经逃过了我。
如果您想解释自己的方法或只是对您的来源提供评论,我们将不胜感激。
答案 0 :(得分:3)
由于我们所讨论的超参数与反向传播相关,这是一种基于梯度的方法,我相信主要参考是Y. Bengio,以及更经典的{{ 3}}
有三种主要方法可以找出超参数的最佳值。在我链接的第一篇论文中对前两个进行了很好的解释。
答案 1 :(得分:0)