Python:如何从文本文件中获取包含给定关键字的段落

时间:2015-04-03 20:54:53

标签: python-2.7 nlp string-matching information-retrieval

我正在尝试实现一个基于事实的问答系统。到目前为止,我已经检索了可能包含答案的候选文本文档。 但现在我陷入困境,我必须根据提供的关键字从文档中提取正确的段落。

我曾简要研究过像LCC和InsightSoft这样的方法,但无法弄清楚如何向前发展。

考虑我有一个包含许多段落(段落)的文档。我想根据某些关键字对这些段落进行排名。

示例:

关键字 - 狮子

第1段:“..没有关于 leopard leopard 的句子......”“

第2段:“关于 lion 的几句话......”

第3段:“......关于 lion leopard 的句子......”

目标:排名(或获取)第2段和第3段

我如何实现(编程)相同的? 有没有办法根据POS标记器提供给关键字的标记对这些段落进行排名?

现有算法的任何代码或实现都将受到赞赏。请在解释时详细说明,因为我不是Python的专家。

1 个答案:

答案 0 :(得分:0)

看一下关于堆栈溢出的this问题,它是一致的。

您想要标记段落和输入,您的输出可能只是查询中包含单词的每个段落,或者结果可能使用vector space model进行排名。