信息提取工具包

时间:2010-04-25 02:19:14

标签: information-extraction structured-data

我正在寻找信息提取库,我可以在其中获得可能具有隐藏或不完整数据的半结构化信息。我想训练一些分类器来根据结构提取内容。

我正在构建一个工具,我可以在浏览器中选择文本,它将生成(通过一些Web服务调用)一个分类器,可以在其他文档上用来提取文本。

我主要关注的是如何使用文档的结构来指示内容是什么。

1 个答案:

答案 0 :(得分:1)

听起来你正在寻找某种html解析器生成器。有一个Web服务(我不记得它的名字)可以让你选择页面上的区域,并生成xpath解析规则,但我不确定它是如何工作的,或者即使它仍然存在。< / p>

通常,如果您可以编写代码,最简单的方法就是自己编写解析器。我建议BeautifulSouplxml