使用RegEx来分解html源代码

时间:2016-12-05 18:32:35

标签: javascript html regex

我试图将每个标记与我收到的HTML源分开。

这是我收到的一大段代码,我试图让它更具可读性,用于人工分析。 到目前为止,我只编写了这个RegEx代码:

RegEx(<\w*>.*<\/\w*>)

但这会让!DOCTYPE标记开始运行直到</html>

我尝试做的是单独选择每个标签,与类型无关 另外,我使用JavaScript运行此RegEx。

非常欢迎任何建议:)

1 个答案:

答案 0 :(得分:2)

解决眼前的问题是微不足道的。你需要制作通配符lazy instead of greedy

即。你想要改变*(尽可能匹配前一个东西)到*?(匹配尽可能少的匹配前一个东西,但仍然让你匹配下一个东西)

...但是如果属性值,脚本元素或样式元素等中存在>,则代码将中断。

解析HTML并非易事。 Regular expressions are not a good tool for it.请改用现有的库。