多项选择题的干扰因素生成

时间:2019-10-03 12:52:26

标签: python machine-learning text deep-learning nlp

我目前正在为多项选择题产生干扰因素。训练集包括问题,答案和3个干扰项,我需要为测试集预测3个干扰项。我已经阅读了许多有关此问题的研究论文,但就我而言,这个问题是独特的。这里的问题是问题和答案是针对理解的(通常是一段文字故事),但是没有给出基于该理解的理解,也没有给出对该问题的任何支持性文本。而且,答案和干扰因素不是一个单词而是句子。我去过的研究论文主要使用某种支持性文字。甚至SciQ数据集也有一些支持文本,但是工作中的问题有所不同

This研究论文是我认为与我想要的密切相关的论文,并且我打算实现这一目标。以下是论文的摘录,作者说该论文比NN模型的效果更好。

  

我们将DG解决为以下排名问题:问题。   给定一个候选干扰项集D和一个MCQ数据集M = {(qi,ai,{di1,...,dik})} N i = 1,其中qi是问题词干,ai是关键字,Di = {di1 ... dik}⊆D是与qi和ai相关的干扰物,找到点∈D的逐点排序函数r:(qi,ai,d)→[0,1],从而对Di中的干扰物进行排序比D − Di中的要高。

我的问题是a)根据我的理解,以上几行说,我们首先创建一个包含数据集中所有干扰因素的大列表,然后针对每个问题针对所有干扰因素创建逐点排序函数?因此,如果我们有n个问题和d个干扰因素。我们将有一个(nxd)矩阵,其中逐点函数值的范围介于o和1之间。而且,问题本身的干扰项的排名应高于其余项。对吧?

  

要学习排名功能,我们研究了两种类型的模型:基于特征的模型和基于NN的模型。

     

基于特征的模型:给定一个元组(q,a,d),基于特征的模型首先将其转换为具有函数φ的特征向量φ(q,a,d)∈R d。我们为DG设计了以下特征,从而生成了26维特征向量:

  • Emb Sim。在q和d之间嵌入相似度和相似度 在a和d之间。
  • POS Sim。 a和d的POS标签之间的Jaccard相似性。
  • ED。 a和d之间的编辑距离。
  • 令牌模拟。 q和d令牌,a和d令牌以及q和a令牌之间的Jaccard相似性。
  • 长度。 a和d的字符和令牌长度以及区别 长度。
  • 后缀。 a和d最长的绝对和相对长度 通用后缀。
  • 频率a和d中的平均单词频率。
  • 单身。 a和d的单数/复数一致性。这个
  • Wiki Sim。

我的问题:这些特征生成的想法适用于单词干扰词和句子干扰词吗? (根据文件,他们声称会这样做。)

除了所有这些,我还有其他简单的问题,例如我应该在此处删除停用词吗?

我是NLP的新手。因此,任何有关哪种SOTA实施将在此处起作用的建议都将非常有帮助。预先感谢。

1 个答案:

答案 0 :(得分:1)

这是一个广泛的研究主题,在您的情况下,生成长片答案或干扰因素的确是广大NLP中非常重要的问题。从那时起,就没有最先进的方法来提供完美的解决方案。

但是尝试了几种实现方法,其中我建议使用两步方法:

1)通过包含相似性的概念来提供数字,以提供初始列表

2)使用IR(信息检索)中的重排方法来改善预测。

希望它可以帮助您:https://pdfs.semanticscholar.org/ebe9/99b7be778a3790af95e981e26c08672d37c2.pdf?_ga=2.11580023.2137318516.1570520867-988658311.1570520867