什么是tf.nn.max_pool的ksize参数用于?

时间:2016-07-26 23:28:21

标签: computer-vision tensorflow

tf.nn.max_pool的定义中,ksize用于什么?

tf.nn.max_pool(value, ksize, strides, padding, data_format='NHWC', name=None)

Performs the max pooling on the input.

Args:

value: A 4-D Tensor with shape [batch, height, width, channels] and type    tf.float32.
ksize: A list of ints that has length >= 4. The size of the window for each dimension of the input tensor.

例如,如果input value属于tensor : [1, 64, 64, 3]ksize=3。这意味着什么?

1 个答案:

答案 0 :(得分:40)

documentation州:

  

ksize:长度> gt的整数列表.4。输入张量的每个维度的窗口大小。

通常对于图像,对于64x64像素的RGB图像,输入的形状为[batch_size, 64, 64, 3]

如果您有一个2x2窗口,那么内核大小ksize通常为[1, 2, 2, 1]。在批量大小维度和渠道维度上,ksize1,因为我们不希望在多个示例或多个渠道上取最大值。