我正在尝试实现一个基于事实的问答系统。到目前为止,我已经检索了可能包含答案的候选文本文档。 但现在我陷入困境,我必须根据提供的关键字从文档中提取正确的段落。
我曾简要研究过像LCC和InsightSoft这样的方法,但无法弄清楚如何向前发展。
考虑我有一个包含许多段落(段落)的文档。我想根据某些关键字对这些段落进行排名。
示例:
关键字 - 豹,狮子
第1段:“..没有关于 leopard 或 leopard 的句子......”“
第2段:“关于 lion 的几句话......”
第3段:“......关于 lion 和 leopard 的句子......”
目标:排名(或获取)第2段和第3段
我如何实现(编程)相同的? 有没有办法根据POS标记器提供给关键字的标记对这些段落进行排名?
现有算法的任何代码或实现都将受到赞赏。请在解释时详细说明,因为我不是Python的专家。
答案 0 :(得分:0)
看一下关于堆栈溢出的this问题,它是一致的。
您想要标记段落和输入,您的输出可能只是查询中包含单词的每个段落,或者结果可能使用vector space model进行排名。