正则表达式从html切割css链接

时间:2015-08-03 14:25:26

标签: java regex jsoup

我想使用正则表达式从html页面中提取所有css和js链接,现在我使用:

([^ ()]*\.(?:css|js)\b)

那个模式,但它不能很好地工作,我想要排除符号,例如&#39; {}()}&#39;在.css或.js之前的链接路径。 我尝试使用 Jsoup 解析器但是,他无法从html中的js脚本中提取<link..>标签,代码如下:

if( userAgent.match( /ipad|iphone|htc|android|windows\s+phone/i ) ) {
document.write('<link rel="stylesheet" type="text/css" href="http://static.gazeta.ru/nm2012/css/new_common_css_pda54.css" />');
} else {
document.write('<link rel="stylesheet" type="text/css" href="http://static.gazeta.ru/nm2012/css/new_common_css275.css" />');
} 

1 个答案:

答案 0 :(得分:0)

您可以使用Javax DOM Parser,因为HTML是从XML中提取的,或者是更具特定于HTML的,如Mozilla使用的validator.nu