应用错误收集

更大的问题是你有多少训练数据。有很多有趣的工作，但深度神经网络方法倾向于使用QA排名任务的原因是因为这些任务通常有数十万或数百万的训练样例。

如果您有较短的查询，即标题或网络查询，您可能需要更多数据才能学习，因为每个培训实例都会运行较少的网络。这是可能的，但您选择的方法应该基于您可用的培训数据，而不是查询的大小。

[0-50个查询] - ＆gt;手动调整，经过时间考验的模型，如查询可能性，BM25，（或者如果你想要更好的结果，ngram模型，如SDM）（如果你想要更多的召回，伪相关反馈模型，如RM3）。
[50-1000个查询] - ＆gt;线性或基于树的学习到排名方法
[1000-million] - ＆gt;深入的方法，或者可能仍然是学习排名。我不确定任何深度论文是否真正支配了最先进的梯度提升回归树设置。

我的一位同学最近的一篇论文使用了pseudo-labels from BM25 to bootstrap a DNN。他们取得了不错的成绩（优于BM25），但实际上他们必须是谷歌（培训时间方面）才能实现这一目标。