我正在使用Regex查找特定HTML标记之间的内容。
但是,内容可能是外语,可以包含任何内容。
我正在试图找出一个正则表达式,我可以捕获标签之间的所有内容。我在特定情况下看过文章和问答,但我无法弄清楚如何把它们放在一起(特别是外国字符要求)。
有没有人有任何解决方案/想法?
答案 0 :(得分:0)
<.*?>
应该抓住任何东西,无论它是什么。
答案 1 :(得分:0)
您可以使用以下模式匹配任何字符,但匹配小于号:[^<]
这将匹配外来字符,但不匹配标记的第一个字符。
答案 2 :(得分:0)
<强>解决方案强>
>.*?<
<强>买者强>
正则表达式对于解析HTML非常糟糕。例如,考虑一下'&lt;'的情况在两个HTML标签之间,你的正则表达式会非常糟糕。
请考虑使用 jsoup 之类的东西,它是一个真正的Java小库,可以在HTML解析中创造奇迹。