如何使用HtmlUnit在另一个div中找到div?

时间:2013-06-21 12:48:11

标签: html web-scraping htmlunit

我正在开展一些项目,我需要从不同的网站上删除一些信息。我正在使用HtmlUnit来实现此目的,但问题是我无法遍历一页上的元素。

示例:

  <div id="some_id">

      <div>

        <div>

           <div>

              ......
                       many divs in between
              ......

               <div id="my_target_div"> some information </div>

                ........

                ........

                 </div>

现在如何获取ID div的{​​{1}}和my_target_div

内的信息

2 个答案:

答案 0 :(得分:5)

使用 getHtmlElementById

检查 documentation

一个例子:

@Test
public void getElements() throws Exception {
    final WebClient webClient = new WebClient();

    final HtmlPage page = webClient.getPage("http://some_url");
    final HtmlDivision div = page.getHtmlElementById("my_target_div");

    webClient.closeAllWindows();
}

<强> Source.

答案 1 :(得分:2)

WebClient webClient = new WebClient();
        HtmlPage page;
  HtmlElement div= (HtmlElement) page2.getFirstByXPath("//div[@id='my_target_div']");

这将解决您的问题。