在常见的应用学习到排名任务中,输入通常是语义的并且具有良好的句法结构,例如问答分级任务。在这种情况下,CNN或LSTM是捕获QA对的潜在信息(本地或长期依赖)的良好结构。
但实际上,有时我们只有短对和离散词。在这种情况下,CNN还是LSTM仍然是一个公平的选择?还是有一些更合适的方法可以解决这个问题?
答案 0 :(得分:1)
更大的问题是你有多少训练数据。有很多有趣的工作,但深度神经网络方法倾向于使用QA排名任务的原因是因为这些任务通常有数十万或数百万的训练样例。
如果您有较短的查询,即标题或网络查询,您可能需要更多数据才能学习,因为每个培训实例都会运行较少的网络。这是可能的,但您选择的方法应该基于您可用的培训数据,而不是查询的大小。
我的一位同学最近的一篇论文使用了pseudo-labels from BM25 to bootstrap a DNN。他们取得了不错的成绩(优于BM25),但实际上他们必须是谷歌(培训时间方面)才能实现这一目标。