如何将doctype解析为字符串作为html doctype

时间:2018-10-24 04:54:37

标签: c# dom comobject ihtmldocument

我正在使用C#应用程序通过EnumWindows从当前IE选项卡获取html文件。 现在,我得到了HTMLDocument,可以通过HtmlAgilityPack将其解析为来自externalHTML( {HTMLDocument} .documentElement.outerHTML )的html文件,但是我的输出html文件没有doctype。

我看到 HTMLDocument 具有 doctype 属性,如何将其解析为与html文件中的标记相同的字符串

1 个答案:

答案 0 :(得分:0)

我通过将htmlDocument.doctype转换为动态对象来获得它。另外,您可以通过在<html>列表上循环来获取(dynamic)htmlDocument.childNodes标记之外的其他标记

private static void InsertDocType(HTMLDocument htmlDocument, HtmlDocument document)
{
    // get html node
    HtmlNode htmlNode = document.DocumentNode.SelectSingleNode("/html");

    // get doctype node from HTMLDocument
    var doctype = (dynamic)htmlDocument.doctype;

    StringBuilder doctypeText = new StringBuilder();
    doctypeText.Append("<!DOCTYPE");
    doctypeText.Append(" ");
    doctypeText.Append(doctype.name);

    // add PUBLIC
    if (!string.IsNullOrEmpty(doctype.publicId))
    {
        doctypeText.Append(" PUBLIC \"");
        doctypeText.Append(doctype.publicId);
        doctypeText.Append("\"");
    }

    // add sytem id
    if (!string.IsNullOrEmpty(doctype.systemId))
    {
        doctypeText.Append(" \"");
        doctypeText.Append(doctype.systemId);
        doctypeText.Append("\"");
    }

    // add close tag
    doctypeText.Append(">");
    doctypeText.Append(Environment.NewLine);

    HtmlCommentNode doctypeNode = document.CreateComment(doctypeText.ToString());
    document.DocumentNode.InsertBefore(doctypeNode, htmlNode);
}