jsoup-1.8.1
尝试{
文档文档= Jsoup.connect(url).get();
return document.getElementsByTag(“title”)。text();
} catch(例外e){
的System.out.println(E);
return null;
}org.jsoup.HttpStatusException:HTTP错误提取URL。状态= 404,网址= http://ja.wikipedia.org/wiki/%E3%83%AA%E3%83%B3%E3%82%B4
已解码的网址在http://ja.wikipedia.org/wiki /りんご
当我在Local中的Main函数中运行它时,它会按照我的预期运行。 但是如果我在Servlet中执行它,它会返回404错误。 非编码网址可以正确执行。
答案 0 :(得分:2)
维基百科不允许抓取机器人添加useragent
和referrer
doc = Jsoup.connect(url)
.userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6")
.referrer("http://www.google.com")
.get();