正则表达式,用于在两个HTML标记之间查找所有可能的内容(包括外来字符)

时间:2013-10-30 16:05:26

标签: java html regex

我正在使用Regex查找特定HTML标记之间的内容。

但是,内容可能是外语,可以包含任何内容。

我正在试图找出一个正则表达式,我可以捕获标签之间的所有内容。我在特定情况下看过文章和问答,但我无法弄清楚如何把它们放在一起(特别是外国字符要求)。

有没有人有任何解决方案/想法?

3 个答案:

答案 0 :(得分:0)

<.*?>应该抓住任何东西,无论它是什么。

答案 1 :(得分:0)

您可以使用以下模式匹配任何字符,但匹配小于号:[^<]

这将匹配外来字符,但不匹配标记的第一个字符。

答案 2 :(得分:0)

<强>解决方案

>.*?<

<强>买者

正则表达式对于解析HTML非常糟糕。例如,考虑一下'&lt;'的情况在两个HTML标签之间,你的正则表达式会非常糟糕。

请考虑使用 jsoup 之类的东西,它是一个真正的Java小库,可以在HTML解析中创造奇迹。