我正在使用SemEval2010 Task 8数据集进行关系分类。数据集已经分为8个样本用于培训,2个样本用于测试。为了尽可能公平,我最后只使用我的模型来计算其表现(F1-Score)。
为了调整我的卷积神经网络,我保留6到400个样本用于训练,1个用于验证。我训练模型并在每个时代之后(约10'计算)我计算我的预测的F1分数。
我阅读了论文http://page.mi.fu-berlin.de/prechelt/Biblio/stop_tricks1997.pdf并在最后3场演出增加时停止训练(类似于论文中的UP)。在论文中,他们返回的模型对应于目前为止所见的最佳表现。
我的问题是:为了尽可能准确,我们需要整个8&000,000个样本进行培训。说我们将训练直到在验证集上具有最佳性能然后进行预测的时代是否正确?或者我们应该保存与最佳性能相对应的模型和"浪费" 1' 600个样本?