在包含'...& body ='时,如何将html解析为XML?

时间:2014-06-12 15:20:29

标签: c# html xml

我的html文件是格式正确的xml文档(标记已配对),但包含如下所示的锚:

<a href="mailto:test@domain.com?subject=Hello&body=someMessageHere" target="_top" style="text-decoration: none;">link</a>

XDocument.Load调用的Xml解析器抛出XmlException:

其他信息:&#39; =&#39;是一个意外的令牌。预期的令牌是&#39 ;;&#39;。

我如何指导解析器我&#39;&amp; body&#39;不是实体?我必须逃避&#39;&amp;&#39;字符?

1 个答案:

答案 0 :(得分:1)

并非所有的HTML都是有效的XML,因此您不应该尝试解析它(尽管在这种情况下,看起来您在文档中有一些未经验证的字符串应该可以得到解决)。

相反,您应该使用类似HTMLAgilityPack的内容来解析HTML并以这种方式处理文档。