我正在使用Jsoup来解析网站的HTML。它一直工作到昨天。但现在我开始收到这个错误:
获取URL时出现HTTP错误。状态= 404, URL = http://www.dawn.com/pakistan/punjab
该网站在浏览器上运行良好。但不使用Java。我使用的代码如下:
Document doc = Jsoup.connect(srcLink)
.userAgent("Mozilla")
.maxBodySize(0)
.timeout(20000)
.followRedirects(true)
.get();
我也试过这个,但又失败了:
String srcLink = source;
URL url = new URL (srcLink);
URLConnection urlCon = url.openConnection();
InputStream in = new BufferedInputStream(urlCon.getInputStream());
Document doc = Jsoup.parse(in, "UTF-8", srcLink);
请帮帮我。我会很感激。
答案 0 :(得分:0)
很可能你可能会落后于代理。尝试设置代理属性并调用代码
System.setProperty("http.proxyHost", "1.2.3.4");// Your proxy
System.setProperty("http.proxyPort", "1234"); // Your proxy port
Document doc = Jsoup.connect(srcLink)
.userAgent("Mozilla")
.maxBodySize(0)
.timeout(20000)
.followRedirects(true)
.get();