如何获取动态加载网页的InnerHTML?

时间:2018-01-31 13:25:41

标签: java jaunt-api

我是java新手并使用jaunt1.3.8库进行网页抓取。 我正在尝试获取网页的InnerHTML:https://www.justdial.com/Pune/Cake-Shops/nct-10070075

该网站不会向我们显示搜索结果的完整列表。 当我们到达页面底部时,它将再次加载。

它将在10次滚动后停止加载。

我想使用jaunt1.3.8库废弃此动态加载网页的数据,但我不知道该怎么做。

1 个答案:

答案 0 :(得分:0)

这是您的第一页:https://www.justdial.com/Pune/Cake-Shops/nct-10070075/page-1

PagniaE =" https://www.justdial.com/Pune/Cake-Shops/nct-10070075/page-1&#34 ;;

制作循环:

while (IniPag<=100) {
  userAgent.visit(PaginaE);
  // (do someting)...
  PaginaE = PaginaE.replace("page1","page2"); //Dynamic
}