在colab中使用keras_to_tpu_model时,TPU的运行速度与CPU一样慢

时间:2018-11-15 03:24:56

标签: python tensorflow keras google-colaboratory google-cloud-tpu

我使用tf.contrib.tpu.keras_to_tpu_model使我的代码能够在TPU上运行,但是每个纪元花了170个小时才能完成一个纪元,而每个纪元CPU却花了40个小时。我试图调整批处理大小但没有任何变化。我已经测试了输入函数在GPU上运行时可能会占用20%的运行时间,因此我认为这可能不是主要原因。

这是我的代码:https://github.com/WangHexie/DHNE/blob/master/src/hypergraph_embedding.py

在colab上运行:

  1. TPU:https://colab.research.google.com/gist/WangHexie/30c385509f9cd93be747f04c39f039a4/tpu-error.ipynb
  2. GPU:https://colab.research.google.com/gist/WangHexie/5bfac53bf92ef0ad527f15ddbf8705e1/-gpu-ipynb.ipynb

模型:

def build_model(self):
    self.inputs = [Input(shape=(self.options.dim_feature[i], ), name='input_{}'.format(i), dtype='float') for i in range(3)]

    self.encodeds = [Dense(self.options.embedding_size[i], activation='tanh', name='encode_{}'.format(i))(self.inputs[i]) for i in range(3)]
    self.decodeds = [Dense(self.options.dim_feature[i], activation='sigmoid', name='decode_{}'.format(i),
                    activity_regularizer = regularizers.l2(0.0))(self.encodeds[i]) for i in range(3)]

    self.merged = concatenate(self.encodeds, axis=1)
    self.hidden_layer = Dense(self.options.hidden_size, activation='tanh', name='full_connected_layer')(self.merged)
    self.ouput_layer = Dense(1, activation='sigmoid', name='classify_layer')(self.hidden_layer)

    self.model = Model(inputs=self.inputs, outputs=self.decodeds+[self.ouput_layer])

    self.model.compile(optimizer=tf.train.AdamOptimizer(learning_rate=self.options.learning_rate),
            loss=[self.sparse_autoencoder_error]*3+['binary_crossentropy'],
                          loss_weights=[self.options.alpha]*3+[1.0],
                          metrics=dict([('decode_{}'.format(i), 'mse') for i in range(3)]+[('classify_layer', 'accuracy')]))
    self.model = tf.contrib.tpu.keras_to_tpu_model(
        self.model,
        strategy=tf.contrib.tpu.TPUDistributionStrategy(
            tf.contrib.cluster_resolver.TPUClusterResolver(
                tpu='grpc://' + os.environ['COLAB_TPU_ADDR'])
        )
    )
    self.model.summary()

1 个答案:

答案 0 :(得分:3)

自2019年2月20日起,函数tf.contrib.tpu.keras_to_tpu_model已被弃用。因此,您应该尝试使用新的Distribution Strategy函数来转换模型。 here可以找到有关分布式培训的深入指南。

我还注意到您正在使用数据类型float作为输入值。在CPython中,默认位值为64位。目前,TPU在使用16位浮点数时表现最佳,因此您应该将输入减少为8位或16位。位值越低,对您的模型的处理就越快。

因此,还建议利用量化,将浮点权重转换为8位整数。量化训练有两种类型:post-training quantizationquantization-aware training

有关Google Cloud Platform上TPU的更多信息,您可以参考Cloud TPU documentation,有关TPU系统架构的更多信息,您可以参考Google的this文档,因为它正确地解释了TPU的方式。设计。