Question

我想抓取/收集特定类名下的页面上的所有链接

e.g。 HTML 农业（92）

<a href="http://www.specificurl/page.html" class="generate">Agriculture</a>

我一直在玩弄下列代码：

   List<?> links = page.getByXPath("//div[@class='generate']/@href");

   OR
 List<?> links = page.getAnchors();
    System.out.println(links);

getByXPath选项返回null，另一个选项获取所有锚点。有没有办法将链接抓到列表中？

Answer 1

这是一个糟糕的XPath，但我遇到了缩小范围的问题。（如果有必要，我可以研究一个更好的XPath，但是现在这个有用了：

List<?> links = page.getByXPath("/html/body/div[2]/div[2]/table/tbody/tr/td/table/tbody/tr[7]/td/table/tbody/tr/td/div/table/tbody/tr[2]/td/div/table/tbody/tr/td/table/tbody/tr/td/ul/li/a/@href").asList()

我不太清楚为什么不允许我们按类名抓住它。

当你有机会时，请告诉我它是如何运作的

HTMLUnit按类名收集所有链接

1 个答案: