通过jsoup访问网页时获取404

时间:2016-04-09 04:54:56

标签: jsoup

我通过jsoup访问网页时获得404。但是,当通过浏览器访问时,页面加载正常。

几天前我就可以通过jsoup访问该页面了。但现在它抛出了404。 试图添加用户代理,超时等但没有运气。

在Firebug中,我收到404请求,但页面在浏览器中加载正常。

不确定页面如何在浏览器中呈现,而不是通过Java程序呈现。

Document doc = Jsoup.connect("http://example.com/stock.php?"+quote).userAgent("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36")
             .timeout(1000*7).get();

执行Java程序时,得到以下错误:

  

org.jsoup.HttpStatusException:HTTP错误提取URL。状态= 404,网址= http://example.com/stock.php?AAA
      在org.jsoup.helper.HttpConnection $ Response.execute(HttpConnection.java:537)

如果需要更多信息,请与我们联系。

1 个答案:

答案 0 :(得分:1)

默认情况下Jsoup在收到HTTP错误时会抛出异常。即使页面返回错误,您也可以将ignoreHttpErrors设置为true以读取页面内容。

Document doc = Jsoup
                 .connect("http://example.com/stock.php?"+quote)
                 .userAgent("...")
                 .timeout(1000*7)
                 .ignoreHttpErrors(true) 
                 .get();