jsoup重定向过多

时间:2018-09-05 11:37:09

标签: java jsoup

我正试图使页面Panoramafirm.pl的数据抓取程序出现,但出现“重定向过多”错误,是否可以解决?这是我的代码:

int pageCount = 1;
try {
    while (true) {

        Document doc = Jsoup.connect("http://panoramafirm.pl/akcesoria_do_komputerów/firmy," + pageCount+".html").timeout(0).get();
        Elements goToNext = doc.getElementsByClass("icon-right-open-mini");
        if (goToNext.size() > 0) {
            pageCount++;
            System.out.println(pageCount);
            Thread.sleep(2000);
        } 
        else {
            break;
        }
    }
    } 
catch (InterruptedException e) {
        e.printStackTrace();
    }

还使用phantomJS在jsoup和硒中使用连接方法.followRedirects(true)

int pageCount = 1;
try {
    while (true) {
        System.setProperty("phantomjs.binary.path",System.getProperty("user.dir")+"\\phantomjs.exe");
        WebDriver driver = new PhantomJSDriver();
        driver.get("http://panoramafirm.pl/akcesoria_do_komputerów/firmy," + pageCount+".html");
        Document doc = Jsoup.parse(driver.getPageSource());

        Elements goToNext = doc.getElementsByClass("icon-right-open-mini");
        if (goToNext.size() > 0) {
            pageCount++;
            System.out.println(pageCount);
            Thread.sleep(2000);
        } 
        else {
            break;
        }
    }
    } 
catch (InterruptedException e) {
        e.printStackTrace();
    }

当将代理与jsoup或selenium一起使用时,或者在我的普通浏览器上,我也获得了太多重​​定向(尽管有些页面如hide.me可以向我显示网页)。这是某种禁令方法。我可以为此做些什么吗?

1 个答案:

答案 0 :(得分:0)

调用给定的网页后,可以看到我收到响应,代码为302,位置标头设置为https。

在网址中使用https。