如果我使用例如训练深度排名模型,该如何选择我的批次。对比损失,每个查询有1个正向文档和2个负样本?
因此,它与排名(亏损)有关,例如适用于。我想要使用深度学习排名模型或仅使用暹罗网络进行排名的quora问题对数据或任何其他问题/答案对。
数据如下:https://github.com/NTMC-Community/MatchZoo/blob/master/matchzoo/datasets/toy/train.csv
现在,我认为如何构建批处理至关重要,对吧?由于每个问题的所有正负答案都必须包含在批处理中,对吗?
答案 0 :(得分:0)
可以使用不同的策略来构建批次和三元组或对。通常,批次是随机生成的,然后选择批次中最难的负片或最难的负片之一。
是的,需要在批处理中包含正例和负例。选择负面因素至关重要。但是通常会尽力在批次中选择合适的底片,而不是以特定的方式构建批次。 这篇博文解释排名损失的工作原理可能很有用https://gombru.github.io/2019/04/03/ranking_loss/