我试图将每个标记与我收到的HTML源分开。
这是我收到的一大段代码,我试图让它更具可读性,用于人工分析。 到目前为止,我只编写了这个RegEx代码:
RegEx(<\w*>.*<\/\w*>)
但这会让!DOCTYPE
标记开始运行直到</html>
。
我尝试做的是单独选择每个标签,与类型无关 另外,我使用JavaScript运行此RegEx。
非常欢迎任何建议:)
答案 0 :(得分:2)
解决眼前的问题是微不足道的。你需要制作通配符lazy instead of greedy。
即。你想要改变*
(尽可能匹配前一个东西)到*?
(匹配尽可能少的匹配前一个东西,但仍然让你匹配下一个东西)
...但是如果属性值,脚本元素或样式元素等中存在>
,则代码将中断。
解析HTML并非易事。 Regular expressions are not a good tool for it.请改用现有的库。