问题陈述:
给出一个段落和一系列问题,可以通过阅读该段落轻松回答。找到问题的答案。
我该如何解决这个问题?我知道这是一个广泛的问题,但我想知道解决这个问题的更高层次方法。
示例输入
斑马是由几种黑白条纹联合而成的几种非洲马科动物(马科)。他们的条纹有不同的图案,每个人都有。它们通常是生活在大型牧群中的小型harems的社会动物。与他们最亲近的亲戚,马和驴不同,斑马从未被真正驯化过。有三种斑马:平原斑马,格雷维斑马和山斑马。平原斑马和山斑马属于Hippotigris亚属,但Grévy斑马是属于Dolichousppus亚属的唯一种类。后者类似于屁股,它与之密切相关,而前两者更像是马。所有三个属于Equus属,以及其他生活equids。独特的斑马条纹使它们成为人们最熟悉的动物之一。它们出现在各种栖息地,如草原,热带稀树草原,林地,棘手的灌木丛,山脉和沿海丘陵。然而,各种人为因素对斑马种群产生了严重影响,特别是对狩猎皮肤和栖息地的破坏。格雷维的斑马和山斑马濒临灭绝。虽然平原斑马更加丰富,但是一个亚种,斑驴,在19世纪后期灭绝了 - 虽然目前有一个名为Quagga项目的计划,其目的是在一个称为斑驴的过程中培育出类似于斑驴的斑马。繁殖回来 哪种斑马濒临灭绝?
Quagga项目的目标是什么? 哪些动物是他们最亲近的亲戚? 哪三种斑马?
平原斑马和山斑马属于哪个亚属? Hippotigris亚属;平原斑马,Grévy斑马和山斑马;马和驴;旨在培育与斑驴类似的斑马;Grévy斑马和山斑马
示例输出
格雷维的斑马和山斑马 旨在培育表型类似于斑驴的斑马 马和驴
平原斑马,格雷维的斑马和山斑马 Hippotigris亚属
答案 0 :(得分:0)
您必须构建一个NLP分类器 以最简单的形式,我想你可以:
从段落中找出最相关的关键词集合,然后使用N-Gram等算法与问题文本匹配。
训练分类器以标记单词并在问题和答案之间形成知识体
例如 - 关键词:来自问题 - 斑马和濒危,来自段落的匹配文本 - 格雷维的斑马和山斑马濒临灭绝。
您可以查看Chapter 6 from Natural Language Processing with Python - Learning to Classify Text了解如何构建分类。