我正试图使页面Panoramafirm.pl的数据抓取程序出现,但出现“重定向过多”错误,是否可以解决?这是我的代码:
int pageCount = 1;
try {
while (true) {
Document doc = Jsoup.connect("http://panoramafirm.pl/akcesoria_do_komputerów/firmy," + pageCount+".html").timeout(0).get();
Elements goToNext = doc.getElementsByClass("icon-right-open-mini");
if (goToNext.size() > 0) {
pageCount++;
System.out.println(pageCount);
Thread.sleep(2000);
}
else {
break;
}
}
}
catch (InterruptedException e) {
e.printStackTrace();
}
还使用phantomJS在jsoup和硒中使用连接方法.followRedirects(true)
:
int pageCount = 1;
try {
while (true) {
System.setProperty("phantomjs.binary.path",System.getProperty("user.dir")+"\\phantomjs.exe");
WebDriver driver = new PhantomJSDriver();
driver.get("http://panoramafirm.pl/akcesoria_do_komputerów/firmy," + pageCount+".html");
Document doc = Jsoup.parse(driver.getPageSource());
Elements goToNext = doc.getElementsByClass("icon-right-open-mini");
if (goToNext.size() > 0) {
pageCount++;
System.out.println(pageCount);
Thread.sleep(2000);
}
else {
break;
}
}
}
catch (InterruptedException e) {
e.printStackTrace();
}
当将代理与jsoup或selenium一起使用时,或者在我的普通浏览器上,我也获得了太多重定向(尽管有些页面如hide.me可以向我显示网页)。这是某种禁令方法。我可以为此做些什么吗?
答案 0 :(得分:0)
调用给定的网页后,可以看到我收到响应,代码为302,位置标头设置为https。
在网址中使用https。