Question

我想在我的C＃程序中解析网站的HTML。

首先，我使用SGMLReader DLL将HTML转换为XML。我使用以下方法：

XmlDocument FromHtml(TextReader reader)
{
    // setup SGMLReader
    Sgml.SgmlReader sgmlReader = new Sgml.SgmlReader();
    sgmlReader.DocType = "HTML";
    sgmlReader.WhitespaceHandling = WhitespaceHandling.None;
    sgmlReader.CaseFolding = Sgml.CaseFolding.ToLower;
    sgmlReader.InputStream = reader;

    // create document
    XmlDocument doc = new XmlDocument();
    doc.PreserveWhitespace = true;
    doc.XmlResolver = null;
    doc.Load(sgmlReader);
    return doc;
}

接下来，我阅读了一个网站，并尝试寻找header节点：

var client = new WebClient();
var xmlDoc = FromHtml(new StringReader(client.DownloadString(@"http://www.switchonthecode.com")));
var result = xmlDoc.DocumentElement.SelectNodes("head");

但是，此查询给出一个空结果（count == 0）。但是当我检查xmlDoc.DocumentElement的结果视图时，我看到以下内容：

VS watch

任何想法都没有结果？请注意，当我尝试其他网站时，例如http://www.google.com，它可以正常工作。

Answer 1

您需要明确选择使用命名空间，请参阅此question。

XmlNamespaceManager manager = new XmlNamespaceManager(doc.NameTable);
manager.AddNamespace("ns", "http://www.w3.org/1999/xhtml");

doc.DocumentElement.SelectNodes("ns:head", manager);

Answer 2

您可以改用HTML Agility Pack。它是一个开源的HTML解析器

简单的XPath查询：没有结果

2 个答案: