Jsoup返回404错误

时间:2014-12-16 14:10:35

标签: java servlets jsoup

jsoup-1.8.1

  

尝试{
              文档文档= Jsoup.connect(url).get();
              return document.getElementsByTag(“title”)。text();
          } catch(例外e){
              的System.out.println(E);
              return null;
          }

     

org.jsoup.HttpStatusException:HTTP错误提取URL。状态= 404,网址= http://ja.wikipedia.org/wiki/%E3%83%AA%E3%83%B3%E3%82%B4

已解码的网址在http://ja.wikipedia.org/wiki /りんご

当我在Local中的Main函数中运行它时,它会按照我的预期运行。 但是如果我在Servlet中执行它,它会返回404错误。 非编码网址可以正确执行。

1 个答案:

答案 0 :(得分:2)

维基百科不允许抓取机器人添加useragentreferrer

doc = Jsoup.connect(url)
      .userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6")
      .referrer("http://www.google.com")
      .get();