Question

我正在使用HtmlAgilityPack来解析html文件中的href标记。 href标签如下所示：

<h3 class="product-name"><a href="http://www.somewebsite.com/blahblah" title="Click Here to View This Product">Super Cool Product</a></h3>

到目前为止，我可以成功地将网址和标题拉出来，并将其显示在列表中。这是我用来解析html的主要代码：

var linksOnPage = from lnks in document.DocumentNode.SelectNodes("//h3[@class='product-name']//a")
                        where
                            lnks.Attributes["href"] != null && 
                            lnks.InnerText.Trim().Length > 0
                      select new
                      {
                          Url = lnks.Attributes["href"].Value,
                          Text = lnks.InnerText
                      };

上面的代码给出了一个如下所示的结果：

Super Cool Product - http://www.somewebsite.com/blahblah

我正在试图弄清楚如何分别拉出名称和网址，并将它们放入单独的字符串中，而不是将它们拉出来并将它们放入一个字符串中。我猜我可以使用某种Xpath符号来做到这一点。如果有人能引导我朝着正确的方向前进，我将非常感激

谢谢，英里

Xpath / HtmlAgilityPack：从href标记获取特定属性

0 个答案: