从网页中自动提取内容和结构

时间:2013-02-14 14:44:19

标签: web-scraping

我需要将网页的顶层菜单和网页的内容区域提取到XML文档中,是否有任何工具可以为我执行此操作? 这个输出应该是网站的顶级菜单结构,即网站地图和页面主要内容区域内每个页面的内容。

或者,如果您无法建议现有工具,您能否建议如何解决此问题?

1 个答案:

答案 0 :(得分:1)

Automatic Web Data Extraction API允许您自动从URL中提取数据,而无需编写任何脚本。