简单的XPath查询:没有结果

时间:2011-08-29 13:17:31

标签: c# .net html xml

我想在我的C#程序中解析网站的HTML。

首先,我使用SGMLReader DLL将HTML转换为XML。我使用以下方法:

XmlDocument FromHtml(TextReader reader)
{
    // setup SGMLReader
    Sgml.SgmlReader sgmlReader = new Sgml.SgmlReader();
    sgmlReader.DocType = "HTML";
    sgmlReader.WhitespaceHandling = WhitespaceHandling.None;
    sgmlReader.CaseFolding = Sgml.CaseFolding.ToLower;
    sgmlReader.InputStream = reader;

    // create document
    XmlDocument doc = new XmlDocument();
    doc.PreserveWhitespace = true;
    doc.XmlResolver = null;
    doc.Load(sgmlReader);
    return doc;
}

接下来,我阅读了一个网站,并尝试寻找header节点:

var client = new WebClient();
var xmlDoc = FromHtml(new StringReader(client.DownloadString(@"http://www.switchonthecode.com")));
var result = xmlDoc.DocumentElement.SelectNodes("head");

但是,此查询给出一个空结果(count == 0)。但是当我检查xmlDoc.DocumentElement的结果视图时,我看到以下内容:

VS watch

任何想法都没有结果?请注意,当我尝试其他网站时,例如http://www.google.com,它可以正常工作。

2 个答案:

答案 0 :(得分:2)

您需要明确选择使用命名空间,请参阅此question

XmlNamespaceManager manager = new XmlNamespaceManager(doc.NameTable);
manager.AddNamespace("ns", "http://www.w3.org/1999/xhtml");

doc.DocumentElement.SelectNodes("ns:head", manager);

答案 1 :(得分:1)

您可以改用HTML Agility Pack。它是一个开源的HTML解析器