我从URL地址获取HTML文档时遇到了奇怪的问题。
这是与之相关的代码。
Connection conn = Jsoup.connect(address);
conn.timeout(10 * 1000);
Connection.Response resp = conn.execute();
if (resp.statusCode() == 200)
return conn.get();
我正在创建多线程应用,其中许多线程尝试建立连接到适当的地址并获取HTML文档。不幸的是,对于大多数线程,conn.execute()抛出HttpStatusException,其中奇怪的http状态代码等于420.我无法找到解决此问题的方法。
编辑:
在根据改变线程数进行测试之后,当线程数估计为5-10时,结果是这个带有http状态代码420的HttpStatusException消失了。 Hovewer,这个数字仅涉及负责从Urls获取适当数据的线程,例如: https://www.laczynaspilka.pl/rozgrywki/nizsze-ligi-juniorzy,16450.html。至于从像https://www.laczynaspilka.pl/druzyny/ekstraklasa,1.html这样的Urls获取数据,我可以创建大约60-70个这种类型的线程,并且不会抛出状态为420的HttpStatusException。是否可能来自同一网站的网址具有不同的请求数限制' ?