用于将HTML文件读取为XML(.NET)的库

时间:2009-07-16 17:12:34

标签: .net html parsing

重复: Looking for C# HTML parser。请关闭。

你能推荐一个用于在.NET中以XML格式读取HTML文件的库吗?我实际上更喜欢处理XML对象而不是文本。理想情况下,它必须修复HTML格式错误。

1 个答案:

答案 0 :(得分:2)

您可能想重新考虑一下。两者并不相等。

一个很好的例子就是自闭标签。

XML标准表示自闭合标记如下所示:

<br/>

虽然html标准将非内容标记作为单个标记

<br>
<link rel="...">

在html中,使用xml语法实际上是违规,因为/>具有不同的含义。

following article中有更多这些问题的例子。