我目前正在为多项选择题产生干扰因素。训练集包括问题,答案和3个干扰项,我需要为测试集预测3个干扰项。我已经阅读了许多有关此问题的研究论文,但就我而言,这个问题是独特的。这里的问题是问题和答案是针对理解的(通常是一段文字故事),但是没有给出基于该理解的理解,也没有给出对该问题的任何支持性文本。而且,答案和干扰因素不是一个单词而是句子。我去过的研究论文主要使用某种支持性文字。甚至SciQ数据集也有一些支持文本,但是工作中的问题有所不同
This研究论文是我认为与我想要的密切相关的论文,并且我打算实现这一目标。以下是论文的摘录,作者说该论文比NN模型的效果更好。
我们将DG解决为以下排名问题:问题。 给定一个候选干扰项集D和一个MCQ数据集M = {(qi,ai,{di1,...,dik})} N i = 1,其中qi是问题词干,ai是关键字,Di = {di1 ... dik}⊆D是与qi和ai相关的干扰物,找到点∈D的逐点排序函数r:(qi,ai,d)→[0,1],从而对Di中的干扰物进行排序比D − Di中的要高。
我的问题是a)根据我的理解,以上几行说,我们首先创建一个包含数据集中所有干扰因素的大列表,然后针对每个问题针对所有干扰因素创建逐点排序函数?因此,如果我们有n个问题和d个干扰因素。我们将有一个(nxd)矩阵,其中逐点函数值的范围介于o和1之间。而且,问题本身的干扰项的排名应高于其余项。对吧?
要学习排名功能,我们研究了两种类型的模型:基于特征的模型和基于NN的模型。
基于特征的模型:给定一个元组(q,a,d),基于特征的模型首先将其转换为具有函数φ的特征向量φ(q,a,d)∈R d。我们为DG设计了以下特征,从而生成了26维特征向量:
我的问题:这些特征生成的想法适用于单词干扰词和句子干扰词吗? (根据文件,他们声称会这样做。)
除了所有这些,我还有其他简单的问题,例如我应该在此处删除停用词吗?
我是NLP的新手。因此,任何有关哪种SOTA实施将在此处起作用的建议都将非常有帮助。预先感谢。
答案 0 :(得分:1)
这是一个广泛的研究主题,在您的情况下,生成长片答案或干扰因素的确是广大NLP中非常重要的问题。从那时起,就没有最先进的方法来提供完美的解决方案。
但是尝试了几种实现方法,其中我建议使用两步方法:
1)通过包含相似性的概念来提供数字,以提供初始列表
2)使用IR(信息检索)中的重排方法来改善预测。