我正在训练GAN从两个不同的图像域(源S
和目标T
)执行样式转换。由于我有可用的班级信息,因此我拥有一个额外的Q
网络(G
和D
除外),该网络可以测量针对目标域及其标签生成的图像的分类结果(LeNet网络) ),并使用D
将错误传播到生成器。从系统的收敛中,我注意到D
始终从8开始(D
网络的损失函数误差),并一直下降到4.5,而G
损失函数误差为从1开始迅速下降到0.2。 here可以找到我正在使用的D
和G
的损失函数,而Q
网络的损失函数是分类交叉熵。迭代中的误差图为:
D和G的损失函数是:
def discriminator_loss(y_true,y_pred):
BATCH_SIZE=10
return K.mean(K.binary_crossentropy(K.flatten(y_pred), K.concatenate([K.ones_like(K.flatten(y_pred[:BATCH_SIZE,:,:,:])),K.zeros_like(K.flatten(y_pred[:BATCH_SIZE,:,:,:])) ]) ), axis=-1)
def discriminator_on_generator_loss(y_true,y_pred):
BATCH_SIZE=10
return K.mean(K.binary_crossentropy(K.flatten(y_pred), K.ones_like(K.flatten(y_pred))), axis=-1)
def generator_l1_loss(y_true,y_pred):
BATCH_SIZE=10
return K.mean(K.abs(K.flatten(y_pred) - K.flatten(y_true)), axis=-1)
D的误差函数总是那么高有意义吗? D
和G
错误的解释是什么? D
的损失在开始时应该很小,而在迭代之后应该增加吗?用损失阈值限制D
胜过G
是个好主意吗?最后,在训练过程中,根据验证集上的损失函数而不是根据我所使用的训练集来计算误差是否有意义? (而不是直接使用train_on_batch使用fit,然后对测试集进行评估)。
编辑:
对于损失,我认为discriminator
和discriminator_on_generator
的损失是GAN的正常损失函数,对吗?