使用JAVA从HTML标记中撕下subString

时间:2010-05-16 09:55:14

标签: java html string tags

假设我有一个像这样的字符串“neverMind<b>What is up</b>neverMind”,我想用JAVA取出使用正则表达式的内容。有人告诉我,使用匹配器将是最好的。谁能告诉我如何使用Matcher做到这一点? 其他解决方案也欢迎! 谢谢!

1 个答案:

答案 0 :(得分:5)

如果你的字符串一直很简单,你可以使用java Pattern。但是如果你的字符串变得更复杂并且想要从嵌套结构中提取内容,那么你应该使用HTML解析器。

要选择正确的解析器,请查看此问题:Which HTML parser is best

如果您使用模式,您的正则表达式将如下所示:

Pattern pattern = Pattern.compile( "<b>(.*?)</b>" );
Matcher m = pattern.matcher( "neverMind<b>What is up</b>neverMind" );
if( m.find() ) {
    String theStringYouAreLookingFor = m.group( 1 );
}