锚标记下面的文本的xpath

时间:2014-06-28 07:33:15

标签: c# xpath web-scraping html-agility-pack

<div id="contentarea">

<a href="index.html"></a>
 > 

<a href="air-filters---housings.html"></a>

 > New K&N High-Flow Air Filter

<br></br>

我需要xpath来获取数据并输出为
新型K&amp; N高流量空气过滤器

这是我的代码

     tag = htmlDoc.DocumentNode.SelectSingleNode("//div[@id='contentarea']");
      if (tag != null)
        {
                wi.PartNumber = tag.InnerText.Trim();
        }

1 个答案:

答案 0 :(得分:0)

我不知道HtmlAgilityPack,但我可以建议一个XPath表达式:

//div[@id="contentarea"]/a[@href="air-filters---housings.html"]
                        /following-sibling::text()[1]

你必须删除尾随的“&gt;”

我想我找到了您的原始输入页面。我认为可能适用于更一般的情况:

//div[@id="contentarea"]/a[last()]/following-sibling::text()[1]