我正在寻找信息提取库,我可以在其中获得可能具有隐藏或不完整数据的半结构化信息。我想训练一些分类器来根据结构提取内容。
我正在构建一个工具,我可以在浏览器中选择文本,它将生成(通过一些Web服务调用)一个分类器,可以在其他文档上用来提取文本。
我主要关注的是如何使用文档的结构来指示内容是什么。
答案 0 :(得分:1)
听起来你正在寻找某种html解析器生成器。有一个Web服务(我不记得它的名字)可以让你选择页面上的区域,并生成xpath解析规则,但我不确定它是如何工作的,或者即使它仍然存在。< / p>
通常,如果您可以编写代码,最简单的方法就是自己编写解析器。我建议BeautifulSoup或lxml。