我想编写一个Regex表达式来捕获<h1>
标记的内容。
例如我想捕获
<h1>All of this in here no matter what 雷 א 格 ןןד i$ </h1>
但是我不想要实际的<h1>
标签,只需要内部的东西(包括外国字符)
周围有很多非常复杂的答案,有特殊条件,外观,群体。我正在寻找标签的内容。而已。
答案 0 :(得分:1)
使用此正则表达式
(?<=<h1>).*?(?=<\\/h1>)
答案 1 :(得分:0)
您可以像这样使用String#replaceAll
:
String h1text = html.replaceAll("(?ui)<h1>(.*?)</h1>", "$1");
请注意?u
处理unicode字符,?i
表示忽略大小写匹配。