Question

有人可以告诉我为什么我的模式：<p(\s+(.*)?)?>(.[^]*)?无法正常工作。示例匹配：

This is a test and anything can be here even other <tags>tags</tags>

This is a test



如果以上都是一行，它应该找到3个独立的模式。下面的链接展示了它的真实行为，这很奇怪......

找到的匹配应始终在找到<p时立即开始，并在找到后立即停止

Answer 1

你的正则表达式存在一些问题。让我们看看它们的样子。

这是你的正则表达式： -

<p(\s+(.*)?)?>(.[^</p>]*)?</p>

问题1： - 注意模式(.*)?。这不符合你的想法。这不是强制*量词的不情愿行为。相反，它是对贪婪的(?)量词强制执行可选的量词*。它只是意味着匹配0 or 1重复(.*)。为了使其不情愿，您需要在括号内移动?。因此，您需要使用(.*?)代替(.*)?。
问题2： - [^]不会否定而是否定 - <, /, p, >作为单独的字符。请注意，在字符类中，每个字符都是字面意思。那里没有分组。因此，(.[^]*)表示匹配character，如果0 or more repetition之后没有[]。那不是你想要的。如果您想匹配不是的序列，那么您可以使用负面预测： - ((?!).)*。现在，这将首先检查以下序列是否不是，然后它匹配下一个字符。

所以，你的正则表达式应该是： -

<p(\s+(.*?))?>((?!</p>).)*</p>

或者，您甚至可以将正则表达式简化为： -

<p[^>]*>((?!</p>).)*</p>

Answer 2

试试这个：

<p.*?>.*?</p>

请在此页面上阅读有关贪婪和不情愿的内容：“Differences Among Greedy, Reluctant, and Possessive Quantifiers”。

Answer 3

问题出在(.[^]*)?，意思是：

我想你想要而不是字符串n次，但这不是这样做的。

请尝试使用.*?：<p(\s+(.*)?)?>.*?。

虽然.*表示匹配最长字符串，但.*?表示匹配最短字符串。

例如，对于字符串#foo#bar#，.*将匹配#foo#bar#，而.*?将匹配#foo#。