我正在尝试废弃此链接:http://www.soccerbase.com/tournaments/tournament.sd?tourn_id=1159
但我有时会使用以下代码获得一个空集合:
String cur = http://www.soccerbase.com/tournaments/tournament.sd?tourn_id=1159;
Document doc = Jsoup.connect(cur).get();
Elements table = doc.getElementsByClass("soccerContent");
System.out.println(table);
有时输出是空的,我无法弄清楚原因。但是,doc.getElementsByTag("div")
始终有效。所以我想知道getElementsByClass
是否被打破了?
我在请求之间设置了1秒的时间间隔,而robots.txt
对user_agent
没有任何说明,所以黑名单应该不是问题。
澄清:抓取是针对学校项目而非商业用途。
修改
我发现问题是,由于某种原因,我的请求被重定向到另一个页面。如果我先在浏览器中打开页面然后发送请求,它将返回所需的页面,甚至没有尝试重定向我。有人可以解释为什么会这样吗?谢谢!
我有数百个页面需要抓取,因此逐个手动打开它们可能不是最佳选择。