我想使用jsoup
从html中提取链接预期输出:绝对链接。
我使用“abs:href”。
这有效:
Jsoup.parse("<a \n\r\t href=\"http://www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");
发送:http://www.ibm.com/123/?id=abc
这不起作用:
Jsoup.parse("<a \n\r\t href=\"www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");
发送:http://www.ibm.com/www.ibm.com/123/?id=abc
我知道很难知道“www.ibm.com”是绝对还是相对的链接。它可能是顶级域名,但也是foldername。任何经过验证的解只是这个黑客进入我的脑海:
String domain = url.replace("http://", "");
url.replace(domain + domain, domain);
答案 0 :(得分:0)
您的第二个示例是明确的相对网址。根据定义,绝对URL以协议(例如http或https)开头。所有浏览器都会为您的示例提供相同的输出。
您能提供与您合作的示例网址吗?为什么它有这些伪绝对URL?