我想以编程方式执行此操作:
给定页面URL,我需要获取页面上的所有链接。重要的是必须至少获得3条链接信息:锚文本,href
属性值,页面上链接的绝对位置。
Java CSSBox库是一个选项,但它尚未完全实现(无法同时获取href
属性值,并且必须使用其他库(如Jsoup)完成一些额外的映射。更重要的是,CSSBox库使页面变得非常慢。
似乎Javascript具有所有可用功能,但我们必须将javascript代码注入页面并编写驱动程序以利用现有浏览器。 Python和Ruby等脚本语言也支持这一点。我很难找到最方便的工具。