我正在开展一些项目,我需要从不同的网站上删除一些信息。我正在使用HtmlUnit
来实现此目的,但问题是我无法遍历一页上的元素。
示例:
<div id="some_id">
<div>
<div>
<div>
......
many divs in between
......
<div id="my_target_div"> some information </div>
........
........
</div>
现在如何获取ID div
的{{1}}和my_target_div
答案 0 :(得分:5)
使用 getHtmlElementById 。
检查 documentation 。
一个例子:
@Test
public void getElements() throws Exception {
final WebClient webClient = new WebClient();
final HtmlPage page = webClient.getPage("http://some_url");
final HtmlDivision div = page.getHtmlElementById("my_target_div");
webClient.closeAllWindows();
}
<强> Source. 强>
答案 1 :(得分:2)
WebClient webClient = new WebClient();
HtmlPage page;
HtmlElement div= (HtmlElement) page2.getFirstByXPath("//div[@id='my_target_div']");
这将解决您的问题。