Question

我想使用正则表达式从html页面中提取所有css和js链接，现在我使用：

([^ ()]*\.(?:css|js)\b)

那个模式，但它不能很好地工作，我想要排除符号，例如＆＃39; {}（）}＆＃39;在.css或.js之前的链接路径。我尝试使用 Jsoup 解析器但是，他无法从html中的js脚本中提取<link..>标签，代码如下：

if( userAgent.match( /ipad|iphone|htc|android|windows\s+phone/i ) ) {
document.write('<link rel="stylesheet" type="text/css" href="http://static.gazeta.ru/nm2012/css/new_common_css_pda54.css" />');
} else {
document.write('<link rel="stylesheet" type="text/css" href="http://static.gazeta.ru/nm2012/css/new_common_css275.css" />');
}

Answer 1

您可以使用Javax DOM Parser，因为HTML是从XML中提取的，或者是更具特定于HTML的，如Mozilla使用的validator.nu。

正则表达式从html切割css链接

1 个答案: