在本文中,我读到以下内容:
我对偏差矢量的尺寸感到困惑。我们如何向(m,1)
向量添加(1, p)
向量? w0
的形状是否正确?还是应该将w1
塑造为(n, P)
以说明P
类,然后我们广播w0
?
注意:我假设w1
应该(n, P)
,这样我们的矩阵乘法才能为每个观察的每个类预测生成一行未归一的logit。那么添加每类偏差并将其广播到我们数据中的样本数量是否有意义?
我什至问问也很愚蠢,但我会逐步讲解我无法调和的例子...
答案 0 :(得分:1)
从技术上讲,在(1,P)张量上添加(m,1)张量可以通过广播两次(给出索引(i,j)的Y_hat等于tf.matmul( X,w1)在索引i处加上w0在索引j)中。但是,这不是前馈网络中应该发生的情况。
w1实际上应定为形状(n,P),然后正确地定形偏置。 tf.matmul(X,w1)的形状为(m,P),Y_hat的形状为(m,P),按预期方式使用广播(因为它的形状应与Y相同)。