Question

我想使用正则表达式来抓取 html标记中的大写字符。

I WANT TO GET THIS TEXT

I don't want to get this text because it has some Lower Case Characters

有时文档根本不包含此内容。有时它会有3-5次。文档包含标记内的其他HTML，我不想更改。只有包含我想要返回的所有大写字符的段落标记。

我对正则表达式不太熟悉，所以这让我很难过。看起来我应该能够做到这样的事情：[A-Z]

找到大写文本后，我想通过ProperCase函数传递数据，并将数据重新插入<H3>标记。

Answer 1

我对visual-studio不熟悉。但你可以使用下面的正则表达式：

(?<=<p>)[A-Z ]*(?=</p>)

使用grep进行测试：

kent$  echo "<p>I WANT TO GET THIS TEXT</p>"|grep -Po '(?<=<p>)[A-Z ]*(?=</p>)'

<强>输出

I WANT TO GET THIS TEXT

如果有一些小写字母：

kent$  echo "<p>BIGBIG BIG and some small letters</p>"|grep -Po '(?<=<p>)[A-Z ]*(?=</p>)'

(output nothing)

Answer 2

试试这个：

(<p>)([^a-z]+)(</p>)

评估结果为：

true I WANT TO GET THIS TEXT
true I DON'T WANT TO GET MIXED CASE TEXT 123.
false I don't want to get this text because it has some Lower Case Characters