我正在尝试解决一个问题,我应该为我的测试样本中的300个问题中的每个问题选择前5个段落。这些段落来自700个可用段落的列表。所提供的培训数据是一组600个问题,每个问题都有一个正确的段落。
我已经将600个正题对和600个负题对(从问题和段落语料库中创建-负采样)组合而成了训练样本。
我尝试用GloVe和tf-idf进行嵌入,我的体系结构是一个简单的两层神经网络,以查询和段落为输入,并预测1和0(正负),我的训练准确率约为85%>
当我使用模型预测问题的前5个段落时,我对所有问题都获得了相同的前5个段落(还对用于训练的问题进行了检查)。我根据预测的概率对组合进行排名第1类。我缩短了段落的长度,但仍然面临着这个问题。