版本:
- TensorFlow:1.8.0
- TensorBoard:1.8.0
我做了什么:
我正在训练一个带有tf.estimator.DNNClassifier的不平衡数据集的模型。当我进行两次训练时,都是从一个全新的开始(AKA,每次训练没有检查点)开始,使用相同的数据。我得到了两个非常不同的结果,如下图所示
1st-train
2nd-train
几点评论:
- 两个培训流程之间没有区别(没有代码或数据更改),它们都是从一个新的开始。
- 训练数据集大小约为100M。
- 两个训练结果均来自6个时代。 (每个结果在谷歌ml引擎上花费25美元。)
从两张图片中我们可以看出:
- 第一次训练没有学会6个时代。
- 第二次训练得知(它的AUC超过0.6)。
- 虽然两次训练之间的AUC值差异仅为0.1(0.6 - 0.5),但其含义有很大差异( a-random-guess 与 a-non随机猜测)。
问题:
- 为什么会发生这种情况:相同的训练数据却得到完全不同的结果?
醇>