Question

我想使用jsoup

从html中提取链接

预期输出：绝对链接。

我使用“abs：href”。

这有效：

Jsoup.parse("<a \n\r\t  href=\"http://www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");

这不起作用：

Jsoup.parse("<a \n\r\t  href=\"www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");

我知道很难知道“www.ibm.com”是绝对还是相对的链接。它可能是顶级域名，但也是foldername。任何经过验证的解只是这个黑客进入我的脑海：

String domain = url.replace("http://", "");
url.replace(domain + domain, domain);

Answer 1

您的第二个示例是明确的相对网址。根据定义，绝对URL以协议（例如http或https）开头。所有浏览器都会为您的示例提供相同的输出。

您能提供与您合作的示例网址吗？为什么它有这些伪绝对URL？