我正在开发我的第一个GAN模型,我使用MNIST数据集关注Tensorflows官方文档。我已经顺利进行了。我试图用自己的数据集替换MNIST,我准备将其匹配为与MNSIT相同的大小:28 * 28,它可以工作。
但是,我的数据集比MNIST更复杂,因此我尝试使数据集的图像尺寸更大:512 * 512,但我不断遇到与输入和输出形状有关的错误。我无法弄清鉴别器和生成器的所有这些输入和输出形状之间的关系。假设我想将数据集从28 * 28(MNSIT大小)更改为y * y(自定义大小),我到底需要在这些图层中调整哪些输入/输出形状?为什么呢?任何人都可以澄清这一流程?
这是我的代码,在这里我可以重塑数据集以匹配MNIST大小:
train_images = train_images.reshape(train_images.shape[0], 28, 28, 1).astype('float32')
在这里我将其标准化:
train_images = (train_images - 127.5) / 127.5 # Normalize the images to [-1, 1]
这是生成器模型,其中最后一层的输出形状表示28 * 28:
def make_generator_model():
model = tf.keras.Sequential()
model.add(layers.Dense(7*7*256, use_bias=False, input_shape=(100,)))
model.add(layers.BatchNormalization())
model.add(layers.LeakyReLU())
model.add(layers.Reshape((7, 7, 256)))
assert model.output_shape == (None, 7, 7, 256) # Note: None is the batch size
model.add(layers.Conv2DTranspose(128, (5, 5), strides=(1, 1), padding='same', use_bias=False))
assert model.output_shape == (None, 7, 7, 128)
model.add(layers.BatchNormalization())
model.add(layers.LeakyReLU())
model.add(layers.Conv2DTranspose(64, (5, 5), strides=(2, 2), padding='same', use_bias=False))
assert model.output_shape == (None, 14, 14, 64)
model.add(layers.BatchNormalization())
model.add(layers.LeakyReLU())
model.add(layers.Conv2DTranspose(1, (5, 5), strides=(2, 2), padding='same', use_bias=False, activation='tanh'))
assert model.output_shape == (None, 28, 28, 1)
return model
这是鉴别模型,其中第一层的输入表示28 * 28:
def make_discriminator_model():
model = tf.keras.Sequential()
model.add(layers.Conv2D(64, (5, 5), strides=(2, 2), padding='same',
input_shape=[28, 28, 1]))
model.add(layers.LeakyReLU())
model.add(layers.Dropout(0.3))
model.add(layers.Conv2D(128, (5, 5), strides=(2, 2), padding='same'))
model.add(layers.LeakyReLU())
model.add(layers.Dropout(0.3))
model.add(layers.Flatten())
model.add(layers.Dense(1))
return model
答案 0 :(得分:1)
以下是计算Conv2DTranspose输出形状的公式,您可以将其视为可学习的上采样方式:
# Padding==Same:
H = H1 * stride
# Padding==Valid
H = (H1-1) * stride + HF
其中H = output size
,H1 = input size
,HF = height of filter
。来自"how-to-calculate-the-output-shape-of-conv2d-transpose"
因此,Conv2DTranspose的输入和输出形状应为:
(None, h1, h2, channels)
||
Conv2DTranspose(num_filters, (kernel_h1, kernel_h2), strides=(s1, s2), padding='same')
||
(None, h1*s1, h2*s2, num_filters)
没有是batch_size的地方
要仅使代码可运行,您可以将第一个密集层的输出形状更改为(8*8*256)
,然后重复Conv2DTranspose->BatchNormalization->LeakyReLU
块,直到变成{{1 }}用于灰度,或(512*512)
用于RGB。
对于鉴别器,唯一必要的更改是仅在第一层中(512*512*3)
。由于input_shape
与Conv2D
不会改变张量的形状。
但是,上述更改并不能保证您的模型取得良好的效果。您确实必须研究您的任务,以决定模型的架构。