应用错误收集

我试图比较在原生张量流，急切执行和tf.keras中实现的相同模型的运行时间。该模型用于问题回答任务，我已经测试了两种选择 - 只提供包含答案的句子，并提供整个上下文。

200多个时期的训练结果相当奇怪，我不知道如何解释它们。

通常可以从数字中说，当数据集大小增加时，TF pure比tf.keras更快，但是对于小数据输入，tf.keras更快。但为什么会这样呢？而且我无法解释为什么急切这么慢......我知道它不会在后台构建流程图，因此没有明确地进行优化，但差别太大了。

您可以在此处找到我的实施：https://github.com/simonada/q-and-a-tensorflow。我真的很想讨论这个基准测试是否有意义，以及如何使其更加一致。