我试图比较在原生张量流,急切执行和tf.keras中实现的相同模型的运行时间。该模型用于问题回答任务,我已经测试了两种选择 - 只提供包含答案的句子,并提供整个上下文。
200多个时期的训练结果相当奇怪,我不知道如何解释它们。
通常可以从数字中说,当数据集大小增加时,TF pure比tf.keras更快,但是对于小数据输入,tf.keras更快。但为什么会这样呢?而且我无法解释为什么急切这么慢......我知道它不会在后台构建流程图,因此没有明确地进行优化,但差别太大了。
您可以在此处找到我的实施:https://github.com/simonada/q-and-a-tensorflow。我真的很想讨论这个基准测试是否有意义,以及如何使其更加一致。