Question

我试图将每个标记与我收到的HTML源分开。

这是我收到的一大段代码，我试图让它更具可读性，用于人工分析。到目前为止，我只编写了这个RegEx代码：

RegEx(<\w*>.*<\/\w*>)

但这会让!DOCTYPE标记开始运行直到</html>。

我尝试做的是单独选择每个标签，与类型无关另外，我使用JavaScript运行此RegEx。

非常欢迎任何建议：）

Answer 1

解决眼前的问题是微不足道的。你需要制作通配符lazy instead of greedy。

即。你想要改变*（尽可能匹配前一个东西）到*?（匹配尽可能少的匹配前一个东西，但仍然让你匹配下一个东西）

...但是如果属性值，脚本元素或样式元素等中存在>，则代码将中断。

解析HTML并非易事。 Regular expressions are not a good tool for it.请改用现有的库。