Question

我的文字类似于：

<html>this is the text and this is another text</html>

我需要使用regexp

来获取此文本

this is the text

问题是，当我使用这样的简单正则表达式（<html>.*）时，我会在

的最后一次出现之前得到全文

任何人都可以帮助我吗？

感谢 lennyd

Answer 1

您需要non-greedy匹配：

<html>.*?</p>

此外，您可能需要考虑为此任务使用HTML解析器而不是正则表达式。

Answer 2

默认情况下，正则表达式量词是贪婪的，即您获得最大长度的匹配。您必须使用。*？<？p>

指定您需要“非贪婪”的匹配

Answer 3

要在para标签之间捕获数据，您可以使用正向预测断言/(.*)(?=<\/p>)/的正则表达式，这比.*?更贪婪并且工作得更慢，但可能对您有所帮助。还要确保您的HTML有效，这意味着：

Answer 4

愚蠢的问题，仍然使用纯正则表达式，为什么不剥离任何＆lt; ..＆gt;里面的段落？然后使用类似[^<]的东西抓住短语？