从段落中找到问题的答案

时间:2014-03-05 07:42:19

标签: algorithm

问题陈述:
给出一个段落和一系列问题,可以通过阅读该段落轻松回答。找到问题的答案。

我该如何解决这个问题?我知道这是一个广泛的问题,但我想知道解决这个问题的更高层次方法。

示例输入

  

斑马是由几种黑白条纹联合而成的几种非洲马科动物(马科)。他们的条纹有不同的图案,每个人都有。它们通常是生活在大型牧群中的小型harems的社会动物。与他们最亲近的亲戚,马和驴不同,斑马从未被真正驯化过。有三种斑马:平原斑马,格雷维斑马和山斑马。平原斑马和山斑马属于Hippotigris亚属,但Grévy斑马是属于Dolichousppus亚属的唯一种类。后者类似于屁股,它与之密切相关,而前两者更像是马。所有三个属于Equus属,以及其他生活equids。独特的斑马条纹使它们成为人们最熟悉的动物之一。它们出现在各种栖息地,如草原,热带稀树草原,林地,棘手的灌木丛,山脉和沿海丘陵。然而,各种人为因素对斑马种群产生了严重影响,特别是对狩猎皮肤和栖息地的破坏。格雷维的斑马和山斑马濒临灭绝。虽然平原斑马更加丰富,但是一个亚种,斑驴,在19世纪后期灭绝了 - 虽然目前有一个名为Quagga项目的计划,其目的是在一个称为斑驴的过程中培育出类似于斑驴的斑马。繁殖回来   哪种斑马濒临灭绝?
  Quagga项目的目标是什么?   哪些动物是他们最亲近的亲戚?   哪三种斑马?
  平原斑马和山斑马属于哪个亚属?   Hippotigris亚属;平原斑马,Grévy斑马和山斑马;马和驴;旨在培育与斑驴类似的斑马;Grévy斑马和山斑马

示例输出

  

格雷维的斑马和山斑马   旨在培育表型类似于斑驴的斑马   马和驴
  平原斑马,格雷维的斑马和山斑马   Hippotigris亚属

1 个答案:

答案 0 :(得分:0)

您必须构建一个NLP分类器 以最简单的形式,我想你可以:

  1. 从段落中找出最相关的关键词集合,然后使用N-Gram等算法与问题文本匹配。

  2. 训练分类器以标记单词并在问题和答案之间形成知识体

    例如 - 关键词:来自问题 - 斑马和濒危,来自段落的匹配文本 - 格雷维的斑马和山斑马濒临灭绝。

  3. 您可以查看Chapter 6 from Natural Language Processing with Python - Learning to Classify Text了解如何构建分类。