我试图找到以下正则表达式来实现我的程序来解析给定的html文件。你能帮我解决这些问题吗?
<div>
<div class=”menuItem”>
<span>
class=”emph”
Any string beginning with < and ending with >, i.e. all tags.
The contents of the body tag.
The contents of all divs
All divs that make menus
我已经设法找出单个div标签只是" < div >"
并且“所有标签表达式为<(\"[^\"]*\"|'[^']*'|[^'\">])*>
你认为你可以帮助我休息吗? 提前谢谢你们......
我知道HTML解析是一个已经解决的问题,并且正则表达式效率不高,但要求我这样做,以便通过使它们(有时)长而详细来演示正则表达式如何工作。这就是为什么我只是将我所拥有的HTML文件作为一个简单的文本文件处理,我需要在其上应用这些正则表达式。
答案 0 :(得分:4)
为了您自己的理智,请考虑使用HTML解析器库来处理您正在使用的语言。正则表达式不适合此应用程序 - 它们无法可靠或干净地处理HTML等结构化数据。