NLP短文本标记方法

时间:2017-07-03 10:55:47

标签: nlp

我正在开展一个项目来评估教育机构的简答题。这是我需要做的:

老师有一个示例答案(事先知道)。  示例答案有3-4个关键字。  学生输入答案。申请应评估学生的答案如下:

  • 这些关键字的上下文含义应该出现在答案中,并且与样本答案中的关系相同/相似。
  • 学生应使用关键词的同义词。
  • 同义词的正确关系也是预料之中的。
  • 不允许学生使用相同的关键字(如果是,则不使用标记) 他们在答案中使用了关键词。
  • 答案不超过2-3句。

有人可以指导我这是一个好方法吗?寻找一些起点来实现这一目标。我熟悉NLP的基础知识,但没有使用那里提供的大量工具。

1 个答案:

答案 0 :(得分:1)

应用语言学的一个子学科称为"computer assisted language learning" (often CALL for short),我不太熟悉,但可能有一些你想要利用的见解。它更多的是关于自动评分等,例如,非英语母语人士的学生论文,但我怀疑你可能想熟悉CALL研究。

这是一个非常难的问题,而不是一般解决的问题。最后,你需要一个人在循环中 - 也就是说,系统分配成绩,教师需要检查他们是否同意。 NLP都不够好,对语言和知识的理解还不够清晰,你可以自动获得文本含义的完整和准确的图像。

考虑到这一点,我首先要尽可能多地获取教师答案的实际例子以及正确和错误的学生答案。您需要拥有某种黄金标准数据,原因有两个:了解您的系统运行情况(评估)以及了解正确和错误答案(洞察力)的原因。没有实际的例子,你不可能有一个工作系统;通过实际的例子,它仍然很难,但现在你知道你的表现如何。

作为第一关,不要做任何花哨的事,而是做a tf.idf weighted bag-of-words model。使用余弦距离来比较教师/学生的答案,并根据余弦距离了解你能够预测正确与错误的程度。当然,这不是完美的,但它会为你提供一个很好的基线来比较你的其他结果。

您可以尝试使用某种word2vec(W2V)系统替换tf.idf包。 W2V有助于解决同义词的一些问题,但是你需要很多类型特定的文本才能使它正常工作,我对这个应用程序你有足够的怀疑。

从那里开始,我开始使用解析器并尝试使用单词之间的关系来达到预期的含义。不过,这一切顺利。首先获取该数据。