Question

我想编写一个Regex表达式来捕获<h1>标记的内容。

例如我想捕获

<h1>All of this in here no matter what 雷 א 格 ןןד i$ </h1>

但是我不想要实际的<h1>标签，只需要内部的东西（包括外国字符）

周围有很多非常复杂的答案，有特殊条件，外观，群体。我正在寻找标签的内容。而已。

Answer 1

使用此正则表达式

(?<=<h1>).*?(?=<\\/h1>)

Answer 2

您可以像这样使用String#replaceAll：

String h1text = html.replaceAll("(?ui)<h1>(.*?)</h1>", "$1");

请注意?u处理unicode字符，?i表示忽略大小写匹配。