XPath在浏览器和HtmlAgilityPack中给出了不同的结果

时间:2015-01-29 20:48:09

标签: c# xpath html-agility-pack

我试图在C#程序中使用HtmlAgilityPack解析网页的一部分。以下是本部分的简化版本(2015年1月30日下午2:40美国东部时间编辑):

<html>
    <body>
        <div id="main-box">
            <div>
                <div>...</div>
                <div>

                    <div class="other-classes row-box">
                        <div>...</div>
                        <div>...</div>
                        <div>
                            <p>
                                <a href="/some/other/path">
                                    <img src="/path/to/img" />
                                </a>
                            </p>
                            <p>
                                ...
                                <a href="/test/path?a=123">Correct</a> extra text
                            </p>
                        </div>
                        <div>
                            ...
                            <p>
                                <ul>
                                    ...
                                    <li>
                                        <span>
                                            <a href="/test/path?a=456&b=123">Never Selected</a>
                                            and <a href="/test/path?a=789">Never Selected</a>.
                                        </span>
                                    </li>
                                </ul>
                            </p>
                        </div>
                        ...
                    </div>

                    <div class="other-classes row-box">
                        <div>...</div>
                        <div>...</div>
                        <div>
                            <p>
                                No "a" tag this time
                            </p>
                        </div>
                        <div>
                            <p>
                                <ul>
                                    <li>
                                        <span>
                                            <span style="display:none;">
                                                <a href="/some/other/path">Never Selected</a>
                                            </span>
                                        </span>
                                    </li>
                                    <li>
                                        <span>
                                            <a href="/test/path?a=abc&b=123">Correct</a>
                                            and <a href="/test/path?a=def">Wrongly Selected</a>.
                                        </span>
                                    </li>
                                </ul>
                            </p>
                        </div>
                        ...
                    </div>

                    <div class="other-classes row-box">
                        <div>...</div>
                        <div>...</div>
                        <div>
                            <p>
                                <span>
                                    <a href="/test/path?a=ghi">Correct</a>
                                </span>
                            </p>
                            <p>
                                ...
                                <a href="/test/path?a=jkl">Wrongly Selected</a> extra text
                            </p>
                        </div>
                        <div>
                            <p>
                                <ul>
                                    ...
                                    <li>
                                        <span>
                                            <a href="/test/path?a=mno&b=123">Never Selected</a>
                                            and <a href="/test/path?a=pqr">Never Selected</a>.
                                        </span>
                                    </li>
                                </ul>
                            </p>
                        </div>
                        ...
                    </div>

                </div>
            </div>
        </div>
    </body>
</html>

我试图获得第一个而且只有第一个&#34; a&#34;使用GET参数标记&#34; a&#34;在每个div的第3或第4个子div中,使用类&#34; row-box&#34; (带有单词&#34;正确&#34;在上面例子中的单词)。我想出了以下XPath,它获取了这些节点,并且只有Chrome浏览器中的这些节点和Firefox的Firepath附加组件(为易读性而包装):

//div[@id="main-box"]/div/div[2]/div[contains(@class, "row-box")]/div[
  (position() = 3 or position() = 4) and descendant::a[
    contains(@href, "a=")
  ]
][1]/descendant::a[contains(@href, "a=")][1]

但是,当我使用HttpWebRequest加载此页面时,将响应流加载到HtmlDocument对象中,并使用此XPath在其DocumentNode属性上调用SelectNodes(xpath),它不仅返回三个正确的节点,还返回两个标记与文本&#34;错误选择&#34;在上面的例子中。我注意到这实际上就像我上面使用XPath一样,除了没有最后的#34; [1]&#34;,就像这样(包装易读性):

//div[@id="main-box"]/div/div[2]/div[contains(@class, "row-box")]/div[
  (position() = 3 or position() = 4) and descendant::a[
    contains(@href, "a=")
  ]
][1]/descendant::a[contains(@href, "a=")]

我已经确定我正在使用最新版本的HtmlAgilityPack,在我的XPath上尝试了几种变体来确定它是否达到了一些任意的最大长度或类似的其他简单问题,并尝试研究类似的问题而没有成功。我尝试使用相同的基本概念来组合一个更简单的HTML结构进行测试,但无法用此重现问题,所以我怀疑HtmlAgilityPack如何解析此结构中的某些内容可能是一个微妙的问题。

如果有人知道可能导致此问题的原因,或者有更好的方法来编写将获得正确节点的XPath表达式并希望不会导致HtmlAgilityPack出现问题,我将非常感激。

修改

正如所建议的,这是我正在使用的C#代码的简化版本,我已经确认它可以为我重现这个问题。

using System;
using System.Net;
using HtmlAgilityPack;

...

static void Main(string[] args)
{
    string url = "http://www.deerso.com/test.html";
    string xpath = "//div[@id=\"main-box\"]/div/div[2]/div[contains(@class, \"row-box\")]/div[(position() = 3 or position() = 4) and descendant::a[contains(@href, \"a=\")]][1]/descendant::a[contains(@href, \"a=\")][1]";
    int statusCode;
    string htmlText;

    HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);

    request.Accept = "text/html,*/*";
    request.Proxy = new WebProxy();
    request.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:35.0) Gecko/20100101 Firefox/35.0";

    using (var response = (WebResponse)request.GetResponse())
    {
        statusCode = (int)((HttpWebResponse)response).StatusCode;
        using (var stream = response.GetResponseStream())
        {
            if (stream != null)
            {
                using (var reader = new System.IO.StreamReader(stream))
                {
                    htmlText = reader.ReadToEnd();
                }
            }
            else
            {
                Console.WriteLine("Request to '{0}' failed, response stream was null", url);
                htmlText = null;
                return;
            }
        }
    }

    HtmlNode.ElementsFlags.Remove("form"); //fix for forms
    HtmlDocument doc = new HtmlDocument();
    doc.LoadHtml(htmlText);

    HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes(xpath);

    foreach (HtmlNode node in nodes)
    {
        Console.WriteLine("Node Found:");
        Console.WriteLine("Text: {0}", node.InnerText);
        Console.WriteLine("Href: {0}", node.Attributes["href"].Value);
        Console.WriteLine();
    }

    Console.WriteLine("Done!");
}

2 个答案:

答案 0 :(得分:1)

基于更新的Html的新答案

我们无法使用//a[contains(@href,'a=')][1]过滤器,因为这是从其直接父级中选择第一个<a>元素。

我们需要添加括号以在过滤器中包含后代运算符,即

(//a[contains(@href,'a=')])[1]

但是,如果我们扩展它以将第一个后代过滤器应用于另一个节点集中的每个节点,则生成的xpath表达式无效:

//div[contains(@class,'row-box')](//a[contains(@href,'a=')])[1]

我认为我们需要将其分为两个步骤:

  1. 获取包含我们想要的特定链接的div元素组。
  2. 从该组中的每个元素获取第一个后代链接元素
  3. 在C#中,这看起来像:

    // Get the <div> elements we know are ancestors to the <a> elements we want
    HtmlNodeCollection topDivs = doc.DocumentNode.SelectNodes("//a[contains(@href,'?a=')]/ancestor::div[contains(@class,'row-box')]");
    
    // Create a new list to hold the <a> elements
    List<HtmlNode> linksWeWant = new List<HtmlNode>(topDivs.Count)
    
    // Iterate through the <div> elements and get the first descendant
    foreach(var div in topDivs)
    {
        linksWeWant.Add(div.SelectSingleNode("(//a[contains(@href,'?a=')])[1]"));
    }
    

    旧答案

    使用此page作为指导我将xpath表达式放在一起:

    当我在HtmlAgilityPack中运行时,我只返回这三个元素:

    <a href = "/test/path?a=123">
    <a href = "/test/path?a=abc&b=123">
    <a href = "/test/path?a=ghi">
    

    以下是表达式的细分:

    //div[contains(@class,'row-box')]        -> Get nodeset of <div class="*row-box*"> elements
    /descendant::a                           -> From here get all descendant <a> elements
    [contains(@href,'a=') and position()=1]  -> Filter according to href value and element being the first descendant
    

    我认为问题中xpath的主要区别是/descendant::a[contains(@href,'a=') and position()=1] vs /descendant::a[contains(@href,'a=')][1]。单独应用[1]将过滤为第一个子节点,而不是第一个子节点。

答案 1 :(得分:0)

  

我试图在每个div的第3个或第4个子div中使用“row-box”类获得第一个也是唯一一个带有GET参数“a”的“a”标记

我不认为在单个XPath表达式中可以进行这样的查询。在XQuery中很容易:

for $rowBox in //div[contains(@class, 'row-box')]
    let $firstRelevant := ($rowBox/div[
            (position() = 3 or position() = 4)
            and .//a[contains(@href, 'a=')]
        ])[1]
    return ($firstRelevant//a[contains(@href, 'a=')])[1]

但是,这里发生的谓词分组(即(...)[...])的数量超过了XPath的表达能力。

在C#中以多个步骤选择结果将是最佳选择,与XQuery完全相同:

    每个//div[contains(@class, 'row-box')]
    • 选择./div[(position() = 3 or position() = 4) and .//a[contains(@href, 'a=')]
    • 第一个:
      • 选择.//a[contains(@href, 'a=')]
      • 拿第一个