Question

我正在尝试废弃此链接：http://www.soccerbase.com/tournaments/tournament.sd?tourn_id=1159

但我有时会使用以下代码获得一个空集合：

String cur = http://www.soccerbase.com/tournaments/tournament.sd?tourn_id=1159;
Document doc = Jsoup.connect(cur).get();
Elements table = doc.getElementsByClass("soccerContent");
System.out.println(table);

有时输出是空的，我无法弄清楚原因。但是，doc.getElementsByTag("div")始终有效。所以我想知道getElementsByClass是否被打破了？

我在请求之间设置了1秒的时间间隔，而robots.txt对user_agent没有任何说明，所以黑名单应该不是问题。

澄清：抓取是针对学校项目而非商业用途。

修改

我发现问题是，由于某种原因，我的请求被重定向到另一个页面。如果我先在浏览器中打开页面然后发送请求，它将返回所需的页面，甚至没有尝试重定向我。有人可以解释为什么会这样吗？谢谢！

我有数百个页面需要抓取，因此逐个手动打开它们可能不是最佳选择。

Jsoup - 无法按类名获取节点

0 个答案: