我使用 libxml2 来解析/读取HTML页面。以下代码用于读取属性的值:
char *value = (char*)xmlGetProp(node, attr->name);
但xmlGetProp
在读取属性内容时会替换字符实体引用。 E.g。
<p onload="readId="blahString"; myFun();"> Event handler in P HTML TAG</p>
在上面的例子中,它返回以下字符串作为&#34; onload&#34;属性值:
readId="blahString";myFun();
在上述阅读过程中替换字符实体引用。有没有办法使用 libxml2 读取保留原始HTML内容的属性值?
答案 0 :(得分:0)
你叫什么&#34; HTML编码&#34;实际上称为字符实体引用。回答你的问题:不, libxml2 的HTML parser没有选项来关闭字符引用的替换。
XML解析器默认保留字符实体引用,但它不能用于典型的HTML文档。