Crawler4j在shouldVisit()和visit()方法中显示不同的URL名称

时间:2014-03-02 21:32:40

标签: java crawler4j

我正在使用crawler4j抓取网站。该网站在几个网址的末尾有一些参数,例如http://www.abcd.com/xyz/?pqrs

当调用此类网址的shouldVisit()方法时,我将webURL设为http://www.abcd.com/xyz/?pqrs但是当调用同一网址上的访问方法时,我会将网址设为http://www.abcd.com/xyz/

如何在最后访问包含某些参数的页面?

1 个答案:

答案 0 :(得分:1)

Crawl4j默认会访问包含此类参数的页面。

您是说您无法通过访问方法获取带参数的网址吗?

请查看以下代码,url包含字符串http://www.abcd.com/xyz/?pqrs,而parentUrl包含http://www.abcd.com/xyz/

@Override
public void visit(Page page) {
    String url = page.getWebURL().getURL();
    String parentUrl = page.getWebURL().getParentUrl();
}

希望我的回答可以帮到你。