Jsoup解析链接<a href="www.abc.com"></a>

时间:2012-10-29 08:56:21

标签: html-parsing jsoup linkparser

我想使用jsoup

从html中提取链接

预期输出:绝对链接。

我使用“abs:href”。

这有效:

Jsoup.parse("<a \n\r\t  href=\"http://www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");

发送:http://www.ibm.com/123/?id=abc

这不起作用:

Jsoup.parse("<a \n\r\t  href=\"www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");

发送:http://www.ibm.com/www.ibm.com/123/?id=abc

我知道很难知道“www.ibm.com”是绝对还是相对的链接。它可能是顶级域名,但也是foldername。任何经过验证的解只是这个黑客进入我的脑海:

String domain = url.replace("http://", "");
url.replace(domain + domain, domain);

1 个答案:

答案 0 :(得分:0)

您的第二个示例是明确的相对网址。根据定义,绝对URL以协议(例如http或https)开头。所有浏览器都会为您的示例提供相同的输出。

您能提供与您合作的示例网址吗?为什么它有这些伪绝对URL?