我目前正在使用HtmlUnit尝试从页面中抓取一个href并遇到一些麻烦。
XPath是:
/html/body/div[2]/div/div/table/tbody/tr/td[2]/div/div[5]/div/div[2]/span/a
在网页上看起来像:
<a class="t" title="This Brush" href=http://domain.com/this/that">Brush Set</a>
在我的代码中我正在做:
hrefs = page.getByXPath("//html/body/div[2]/div/div/table/tbody/tr/td[2]/div/div[5]/div/div[2]/span/a[@class='t']")
然而,这会返回那里的所有内容,而不仅仅是我想要的网址。
有人可以解释我必须添加什么才能获得href吗? (也不以.html结尾)
答案 0 :(得分:5)
您正在选择a
。您想要选择a/@href
。
hrefs = page.getByXPath("//html/body/div[2]/div/div/table/tbody/tr/td[2]/div/div[5]/div/div[2]/span/a[@class='t']/@href")