我正在尝试从html页面获取所有网址。 我已成功从页面本身获取URL,但也有包含URL的javascripts。 我如何从他们那里获取网址? 我一直在寻找一种方式,我将非常感谢你的帮助。
答案 0 :(得分:0)
如果URL只是JavaScript代码中的字符串,那么您可以通过匹配“脚本”标记文本中看起来像URL的所有内容来提取它们。 E.g:
List<URL> urls = new ArrayList<URL>();
Pattern p = Pattern.compile(myUrlPattern);
Matcher m = p.matcher(eachScriptTagText);
while (m.find()) {
urls.add(m.group());
}
可以在互联网上轻松找到URL的正则表达式。
答案 1 :(得分:0)
以下是Sun在网络浏览中的classic article。它包含一些从HTML中提取URL的示例代码。