我正在使用HtmlAgilityPack来解析html文件中的href标记。 href标签如下所示:
<h3 class="product-name"><a href="http://www.somewebsite.com/blahblah" title="Click Here to View This Product">Super Cool Product</a></h3>
到目前为止,我可以成功地将网址和标题拉出来,并将其显示在列表中。这是我用来解析html的主要代码:
var linksOnPage = from lnks in document.DocumentNode.SelectNodes("//h3[@class='product-name']//a")
where
lnks.Attributes["href"] != null &&
lnks.InnerText.Trim().Length > 0
select new
{
Url = lnks.Attributes["href"].Value,
Text = lnks.InnerText
};
上面的代码给出了一个如下所示的结果:
Super Cool Product - http://www.somewebsite.com/blahblah
我正在试图弄清楚如何分别拉出名称和网址,并将它们放入单独的字符串中,而不是将它们拉出来并将它们放入一个字符串中。我猜我可以使用某种Xpath符号来做到这一点。如果有人能引导我朝着正确的方向前进,我将非常感激
谢谢, 英里