HTMLUnit按类名收集所有链接

时间:2011-02-18 00:29:57

标签: hyperlink htmlunit scrape

我想抓取/收集特定类名下的页面上的所有链接

e.g。 HTML 农业(92)

<a href="http://www.specificurl/page.html" class="generate">Agriculture</a>

我一直在玩弄下列代码:

   List<?> links = page.getByXPath("//div[@class='generate']/@href");

   OR
 List<?> links = page.getAnchors();
    System.out.println(links);

getByXPath选项返回null,另一个选项获取所有锚点。有没有办法将链接抓到列表中?

1 个答案:

答案 0 :(得分:0)

这是一个糟糕的XPath,但我遇到了缩小范围的问题。 (如果有必要,我可以研究一个更好的XPath,但是现在这个有用了:

List<?> links = page.getByXPath("/html/body/div[2]/div[2]/table/tbody/tr/td/table/tbody/tr[7]/td/table/tbody/tr/td/div/table/tbody/tr[2]/td/div/table/tbody/tr/td/table/tbody/tr/td/ul/li/a/@href").asList()

我不太清楚为什么不允许我们按类名抓住它。

当你有机会时,请告诉我它是如何运作的