Question

我正在使用Regex查找特定HTML标记之间的内容。

但是，内容可能是外语，可以包含任何内容。

我正在试图找出一个正则表达式，我可以捕获标签之间的所有内容。我在特定情况下看过文章和问答，但我无法弄清楚如何把它们放在一起（特别是外国字符要求）。

有没有人有任何解决方案/想法？

Answer 1

<.*?>应该抓住任何东西，无论它是什么。

Answer 2

您可以使用以下模式匹配任何字符，但匹配小于号：[^<]

这将匹配外来字符，但不匹配标记的第一个字符。

Answer 3

<强>解决方案

>.*?<

<强>买者

正则表达式对于解析HTML非常糟糕。例如，考虑一下'＆lt;'的情况在两个HTML标签之间，你的正则表达式会非常糟糕。

请考虑使用 jsoup 之类的东西，它是一个真正的Java小库，可以在HTML解析中创造奇迹。