Jsoup - 无法按类名获取节点

时间:2015-10-20 17:27:23

标签: java ajax web-scraping jsoup

我正在尝试废弃此链接:http://www.soccerbase.com/tournaments/tournament.sd?tourn_id=1159

但我有时会使用以下代码获得一个空集合:

String cur = http://www.soccerbase.com/tournaments/tournament.sd?tourn_id=1159;
Document doc = Jsoup.connect(cur).get();
Elements table = doc.getElementsByClass("soccerContent");
System.out.println(table);

有时输出是空的,我无法弄清楚原因。但是,doc.getElementsByTag("div")始终有效。所以我想知道getElementsByClass是否被打破了?

我在请求之间设置了1秒的时间间隔,而robots.txtuser_agent没有任何说明,所以黑名单应该不是问题。

澄清:抓取是针对学校项目而非商业用途。

修改

我发现问题是,由于某种原因,我的请求被重定向到另一个页面。如果我先在浏览器中打开页面然后发送请求,它将返回所需的页面,甚至没有尝试重定向我。有人可以解释为什么会这样吗?谢谢!

我有数百个页面需要抓取,因此逐个手动打开它们可能不是最佳选择。

0 个答案:

没有答案