从网页中提取语义数据

时间:2011-02-15 09:17:34

标签: screen-scraping semantics web-crawler

我有兴趣从网页和其他目前无法语义识别的来源中提取语义数据(简单模板内容)。我之前用一堆不同的语言编写了爬虫和手动解析器,但似乎总是有很多样板和页面特定的代码,并且想知道你们是否知道任何简化过程的平台或框架(开源)只是请。)

如果我找不到一个,我会写一个,所以也欢迎链接到类似的系统或框架建议。

1 个答案:

答案 0 :(得分:1)

该领域被称为“自动包装器提取”,是一个活跃的研究领域,但我还没有看到一个好的开源工具包。一家名为lixto的公司制作了一个您可能感兴趣的商业工具。我很想看到一个解决这个问题的开源项目。