应用错误收集

信息提取工具包

时间：2010-04-25 02:19:14

标签： information-extraction structured-data

我正在寻找信息提取库，我可以在其中获得可能具有隐藏或不完整数据的半结构化信息。我想训练一些分类器来根据结构提取内容。

我正在构建一个工具，我可以在浏览器中选择文本，它将生成（通过一些Web服务调用）一个分类器，可以在其他文档上用来提取文本。

我主要关注的是如何使用文档的结构来指示内容是什么。

1 个答案:

答案 0 :(得分：1)

听起来你正在寻找某种html解析器生成器。有一个Web服务（我不记得它的名字）可以让你选择页面上的区域，并生成xpath解析规则，但我不确定它是如何工作的，或者即使它仍然存在。< / p>

通常，如果您可以编写代码，最简单的方法就是自己编写解析器。我建议BeautifulSoup或lxml。