找到填充卷积层输入的零的数量

时间:2017-06-11 15:06:51

标签: tensorflow padding convolution autoencoder

我正在使用这些these sources在tensorflow中构建卷积自动编码器。我知道我需要用零填充输入图像,以使解码器的输出等于原始输入。 作者给出了一个简单的方形内核和strides(vertical和horrizontal)值相等的例子。我需要为我的输入概括这个填充函数,但是我无法得到正确的张量形状。到目前为止我的功能是:

def _pad(self, input_x, filter_height, filter_width):
    """
    pads input_x with the right amount of zeros.
    Args:
        input_x: 4-D tensor, [batch_side, widht, height, depth]
        filter_side: used to dynamically determine the padding amount
    Returns:
        input_x padded
    """
    # calculate the padding amount for each side
    top_bottom_padding = filter_height - 1
    left_right_padding = filter_width - 1

    # pad the input on top, bottom, left, right, with amount zeros
    return tf.pad(input_x,
                  [[0, 0], [top_bottom_padding, top_bottom_padding], [left_right_padding, left_right_padding], [0, 0]])

这给了我

Shape of input:  (10, 161, 1800, 1)
Shape of padded input: (10, 187, 1826, 1)
Shape of encoder output:  (10, 187, 913, 15)
Shape of decoder output:  (10, 187, 457, 15)

代表

num_outputs=15, kernel_size=14, stride=[1,2]

对我做错了什么的任何想法?

1 个答案:

答案 0 :(得分:2)

您使用的功能不考虑步幅。实际上它只是减少1你的初始输入。对于1D情况,知道输入大小 i ,内核大小 k ,跨步 s 和填充 p ,您可以计算卷积的输出大小为:

enter image description here

这里||操作员指天花板操作。知道1-dim情况的数学,一旦你看到每个昏暗是独立的,n-dim情况就很容易。因此,您只需单独滑动每个维度。

查看公式,并知道您的o应该等于i,您可以计算出适当的填充。