我不明白maxout是如何工作的,我怀疑它是由于我对线性代数乘法的可视化。基本上,我认为maxout函数有两组权重,两者都经过单独训练,然后只选择一个。但是我怀疑这可能是错的,因为我没有看到在网络的一个前馈运行中可以同时训练两个不同权重的方法。
另外,如果函数中的两个权重w1和w2没有引用两个唯一的权重集,那么可以在maxout函数中输入两个以上的参数,并且只选择max吗? / p>
这是我读过的maxout函数:
max((w1.T.dot(X)+ b1),(w2.T.dot(X)+ b2))
我可以使用心理表征来更好地想象这一点吗?