应用错误收集

从网页中提取语义数据

时间：2011-02-15 09:17:34

标签： screen-scraping semantics web-crawler

我有兴趣从网页和其他目前无法语义识别的来源中提取语义数据（简单模板内容）。我之前用一堆不同的语言编写了爬虫和手动解析器，但似乎总是有很多样板和页面特定的代码，并且想知道你们是否知道任何简化过程的平台或框架（开源）只是请。）

如果我找不到一个，我会写一个，所以也欢迎链接到类似的系统或框架建议。

1 个答案:

答案 0 :(得分：1)

该领域被称为“自动包装器提取”，是一个活跃的研究领域，但我还没有看到一个好的开源工具包。一家名为lixto的公司制作了一个您可能感兴趣的商业工具。我很想看到一个解决这个问题的开源项目。