我是java新手并使用jaunt1.3.8库进行网页抓取。 我正在尝试获取网页的InnerHTML:https://www.justdial.com/Pune/Cake-Shops/nct-10070075。
该网站不会向我们显示搜索结果的完整列表。 当我们到达页面底部时,它将再次加载。
它将在10次滚动后停止加载。
我想使用jaunt1.3.8库废弃此动态加载网页的数据,但我不知道该怎么做。
答案 0 :(得分:0)
这是您的第一页:https://www.justdial.com/Pune/Cake-Shops/nct-10070075/page-1
PagniaE =" https://www.justdial.com/Pune/Cake-Shops/nct-10070075/page-1&#34 ;;
制作循环:
while (IniPag<=100) {
userAgent.visit(PaginaE);
// (do someting)...
PaginaE = PaginaE.replace("page1","page2"); //Dynamic
}