我为Nxpose XML版本2.0制作了PHP的php解析器,它工作正常,但最近解析器失败了。
问题似乎是因为我尝试解析的XML在没有CDATA标记的XML Elements之间有HTML,这意味着HTML代码包含无效字符。所以XML无法解析我使用的库,xmlReader和simpleXML。
这是一个对PHP的这个DOM库无效的行的示例:
<Paragraph preformat="true">98: 99: <BODY scroll="AUTO" bgColor="#FFFFFF" text="#000000" onload="setFo... 100: <FORM action="/exchweb/bin/auth/owaauth.dll" method="POST" name="... 101: 98: <INPUT type="hidden" name="destination" value="\
http://www.rapid7.com"...</Paragraph>
任何想法如何检测这样的所有行并删除它?
现在我发现找到这一行的唯一模式是在HTML代码编号为标识符之前的帽子,其格式如下:
<number>:<html-code>
提前感谢您的帮助。
亲切的问候
答案 0 :(得分:0)
你应该试试这个:
<Paragraph.+[0-9]:.+<\/Paragraph>