为什么xmlGetProp在读取属性值时会替换字符实体引用?

时间:2016-05-10 13:39:31

标签: html xml xml-parsing libxml2

我使用 libxml2 来解析/读取HTML页面。以下代码用于读取属性的值:

char *value = (char*)xmlGetProp(node, attr->name);

xmlGetProp在读取属性内容时会替换字符实体引用。 E.g。

<p onload="readId=&quot;blahString&quot;; myFun();"> Event handler in P HTML TAG</p>

在上面的例子中,它返回以下字符串作为&#34; onload&#34;属性值:

readId="blahString";myFun();

在上述阅读过程中替换字符实体引用。有没有办法使用 libxml2 读取保留原始HTML内容的属性值?

1 个答案:

答案 0 :(得分:0)

你叫什么&#34; HTML编码&#34;实际上称为字符实体引用。回答你的问题:不, libxml2 HTML parser没有选项来关闭字符引用的替换。

XML解析器默认保留字符实体引用,但它不能用于典型的HTML文档。