Question

这是一个关于如何在张量流图中找到Nan的第一次出现的一个很好的问题：

答案非常有用，以下是代码：

train_op = ...
check_op = tf.add_check_numerics_ops()

sess = tf.Session()
sess.run([train_op, check_op])  # Runs training and checks for NaNs

显然，第一次遇到Nan时，同时运行训练和数字检查将导致错误报告。

如何将其整合到Keras中？在文档中，我找不到任何类似的内容。

我也检查了代码。更新步骤在此处执行： https://github.com/fchollet/keras/blob/master/keras/engine/training.py

有一个名为_make_train_function的函数，其中创建了计算丢失和应用更新的操作。这被称为训练网络。

我可以像这样更改代码（总是假设我们在tf后端运行）：

check_op = tf.add_check_numerics_ops()

self.train_function = K.function(inputs, 
    [self.total_loss] + self.metrics_tensors + [check_op],
    updates=updates, name='train_function', **self._function_kwargs)

我正在尝试正确设置它并且不确定上面的代码是否真的有用。也许有一种更简单的方法？

Answer 1

我遇到了完全相同的问题，并找到了check_add_numerics_ops()函数的替代方法。我没有走那条路线，而是使用TensorFlow调试器来遍历我的模型，按照https://www.tensorflow.org/guide/debugger中的示例来找出我的代码在哪里产生nan的确切位置。此代码段应该可以用调试会话替换Keras使用的TensorFlow会话，从而允许您使用tfdbg。

from tensorflow.python import debug as tf_debug
sess = K.get_session()
sess = tf_debug.LocalCLIDebugWrapperSession(sess)
K.set_session(sess)

Keras + Tensorflow：调试NaNs

1 个答案: