捕获正则表达式匹配的一部分

时间:2013-10-30 16:58:28

标签: java regex

我想编写一个Regex表达式来捕获<h1>标记的内容。

例如我想捕获

<h1>All of this in here no matter what 雷 א 格 ןןד i$ </h1>

但是我不想要实际的<h1>标签,只需要内部的东西(包括外国字符)

周围有很多非常复杂的答案,有特殊条件,外观,群体。我正在寻找标签的内容。而已。

2 个答案:

答案 0 :(得分:1)

使用此正则表达式

(?<=<h1>).*?(?=<\\/h1>)

答案 1 :(得分:0)

您可以像这样使用String#replaceAll

String h1text = html.replaceAll("(?ui)<h1>(.*?)</h1>", "$1");

请注意?u处理unicode字符,?i表示忽略大小写匹配。