解析自定义HTML标记

时间:2012-05-07 10:50:35

标签: html parsing custom-tag

我有这样的自定义标签:

<!--a_word_with_numbers2323-->
    Some content here
<!--/a_word_with_numbers2323-->

我正在尝试使用此模式查找所有标记:

<!--[a-z_]+[0-9]*-->.*<!--/[a-z_]+[0-9]*-->

它正在发挥作用。

但是,如果我有这样的事情:

<!--a_word_with_numbers2323-->
    <--some_embedded_tag-->asafssaf<--/some_embedded_tag-->
<!--/a_word_with_numbers2323-->

如何编写可以防止嵌入式标记的正则表达式。因此,首先,将找到内部标记,然后,在删除这些标记(替换为空字符串)后,将找到外部标记。我想要这样的东西:

<!--[a-z_]+[0-9]*-->[^(<!--)]*<!--/[a-z_]+[0-9]*-->

(<!--)应该解释为整个表达式,而不是限制字符(&lt;! - and)

我尝试谷歌,但我没有找到任何有用的东西,我知道我不应该用正则表达式解析HTML,但我正在解析自定义标签,而不是HTML。

0 个答案:

没有答案