使用HtmlAgilityPack解析特定数据

时间:2014-08-06 16:37:22

标签: xml linq parsing html-agility-pack

我成功从a [@href]中获取网络上的值,但是我收到的所有值都不需要。我在网络资源中看到,我不想要的元素如下:

<a href="http//www.notneeded.com/xxxxxxxxxxxxxgcid=C12289x460&amp;keyword=xxxxxxx">1,507 available from $122</a>"

我需要的所有值都是这样的:

<a href="http//differenturl.com/xxx/xxx/_/id/245/xxxx;xxxx">needed value;M</a>

所有需要的值都是这样开始的:

<a href="http://differenturl.com/xxx/xxx/

然后id和值明显不同于我需要的东西。

请告诉我如何设置我将拥有的代码,而不是所有&#34; a hrefs&#34;,特定的一个hrefs,它们的值以&#34; http://differenturl.com/xxx/xxx/& #34;

抱歉我的英语。

这是代码:

var teams = from hyperlink in teamTags.SelectNodes(".//a[@href]")
                    where hyperlink != null
                    select hyperlink.InnerText;

谢谢!

1 个答案:

答案 0 :(得分:0)

您可以尝试使用XPath starts-with()contains()函数来部分匹配href属性值,例如:

.//a[starts-with(@href, 'http://differenturl.com/xxx/xxx/')]