我正在使用crawler4j抓取网站。该网站在几个网址的末尾有一些参数,例如http://www.abcd.com/xyz/?pqrs
当调用此类网址的shouldVisit()方法时,我将webURL设为http://www.abcd.com/xyz/?pqrs但是当调用同一网址上的访问方法时,我会将网址设为http://www.abcd.com/xyz/。
如何在最后访问包含某些参数的页面?
答案 0 :(得分:1)
Crawl4j默认会访问包含此类参数的页面。
您是说您无法通过访问方法获取带参数的网址吗?
请查看以下代码,url包含字符串http://www.abcd.com/xyz/?pqrs,而parentUrl包含http://www.abcd.com/xyz/
@Override
public void visit(Page page) {
String url = page.getWebURL().getURL();
String parentUrl = page.getWebURL().getParentUrl();
}
希望我的回答可以帮到你。