Question

我目前正在使用HtmlUnit尝试从页面中抓取一个href并遇到一些麻烦。

XPath是：

/html/body/div[2]/div/div/table/tbody/tr/td[2]/div/div[5]/div/div[2]/span/a

在网页上看起来像：

<a class="t" title="This Brush" href=http://domain.com/this/that">Brush Set</a>

在我的代码中我正在做：

hrefs = page.getByXPath("//html/body/div[2]/div/div/table/tbody/tr/td[2]/div/div[5]/div/div[2]/span/a[@class='t']")

然而，这会返回那里的所有内容，而不仅仅是我想要的网址。

有人可以解释我必须添加什么才能获得href吗？（也不以.html结尾）

Answer 1

您正在选择a。您想要选择a/@href。

hrefs = page.getByXPath("//html/body/div[2]/div/div/table/tbody/tr/td[2]/div/div[5]/div/div[2]/span/a[@class='t']/@href")