Question

如何在C＃中序列化HTML？

我想我知道如何使用XSD.exe从XML创建C＃类，可以与XmlSerializer类一起使用来序列化和验证XML文档。

有没有办法用HTML文档做同样的事情？我试过了，但是xsd命令行说远程名称www.w3.org无法解析。

至少有没有办法使用C＃来查明HTML文件是否有效？

Answer 1

HTMLAgilityPack是一个开源库，可以为您轻松解析HTML。然后，您可以非常轻松地搜索/操作文档的结构。

对你提供的HTML非常宽容，所以如果你有一个严格的xHTML有效文件，我不确定它是否是一个很好的检查方法。但它应该能够解析现代浏览器可以做的任何事情。

Answer 2

如果是您尝试验证的XHTML，您可以这样做：

static void validate(string filename)
{
    XmlReaderSettings settings = new XmlReaderSettings();
    settings.ProhibitDtd = false;
    settings.ValidationType = ValidationType.DTD;
    settings.ValidationEventHandler +=
        new ValidationEventHandler(ValidationCallBack);
    settings.XmlResolver = new XhtmlUrlResolver();

    // Create the XmlReader object.
    XmlReader reader = XmlReader.Create(filename, settings);

    // Parse the file. 
    while (reader.Read()) ;
}

// Display any validation errors.
private static void ValidationCallBack(object sender, ValidationEventArgs e)
{
    Console.WriteLine("Validation Error: {0}", e.Message);
}

因为它正在从W3C网站下载架构文件，所以会有点慢。

Answer 3

要反序列化/解析HTML，我还建议使用HTMLAgilityPack。但是，要验证HTML，您可以尝试运行HTML Tidy。但是，对于XHTML，您可以获得XSD。

你如何在C＃中序列化HTML？

3 个答案: