在MSXML中解析HTML块

时间:2013-02-28 20:20:38

标签: xml dom xml-parsing msxml ixmldomdocument

我正在尝试将一大块HTML加载到MSXML的DOMDocument中。所述块是具有一个除外的有效XML - 它具有 个实体。 MSXML对它们嗤之以鼻,声称“引用未定义的实体”。“

我可以让MSXML以某种方式将其识别为有效吗?

1 个答案:

答案 0 :(得分:1)

简单的解决方案:只需运行文字替换“& nbsp;”解析文档前的“”。哪个应该有用,因为不能有逐字的& nbsp;在文中,不应该替换。

更标准的解决方案:申报xml中的实体,通过插入

<!DOCTYPE foobar [
   <!ENTITY nbsp " " >
]>

在xml根节点之前。

你也可以使用“0xA0”和&amp;#x00A0;如果你真的想要一个不间断的空间,而不是一个普通的空间