从渲染的网页获取超链接信息的简便方法

时间:2012-10-18 03:18:59

标签: browser html-parsing web-scraping html-rendering

我想以编程方式执行此操作:

给定页面URL,我需要获取页面上的所有链接。重要的是必须至少获得3条链接信息:锚文本,href属性值,页面上链接的绝对位置。

Java CSSBox库是一个选项,但它尚未完全实现(无法同时获取href属性值,并且必须使用其他库(如Jsoup)完成一些额外的映射。更重要的是,CSSBox库使页面变得非常慢。

似乎Javascript具有所有可用功能,但我们必须将javascript代码注入页面并编写驱动程序以利用现有浏览器。 Python和Ruby等脚本语言也支持这一点。我很难找到最方便的工具。

1 个答案:

答案 0 :(得分:0)

PHP的DOM操作库能帮到你吗? http://www.php.net/manual/en/book.dom.php