Nexpose XML报告2.0版,如何从XML中删除HTML?

时间:2014-08-21 20:16:09

标签: php xml parsing

我为Nxpose XML版本2.0制作了PHP的php解析器,它工作正常,但最近解析器失败了。

问题似乎是因为我尝试解析的XML在没有CDATA标记的XML Elements之间有HTML,这意味着HTML代码包含无效字符。所以XML无法解析我使用的库,xmlReader和simpleXML。

这是一个对PHP的这个DOM库无效的行的示例:

<Paragraph preformat="true">98: 99: <BODY scroll="AUTO" bgColor="#FFFFFF" text="#000000" onload="setFo... 100: <FORM action="/exchweb/bin/auth/owaauth.dll" method="POST" name="... 101: 98: <INPUT type="hidden" name="destination" value="\
http://www.rapid7.com"...</Paragraph>

任何想法如何检测这样的所有行并删除它?

现在我发现找到这一行的唯一模式是在HTML代码编号为标识符之前的帽子,其格式如下:

<number>:<html-code>

提前感谢您的帮助。

亲切的问候

1 个答案:

答案 0 :(得分:0)

你应该试试这个:

<Paragraph.+[0-9]:.+<\/Paragraph>