为什么我在java上读取网站URL时遇到403错误?

时间:2012-08-22 01:06:09

标签: java

我正在尝试使用以下内容阅读java上的http://www.meuhumor.com.br/

URL url;
        HttpURLConnection connection = null;        
        try{
            url = new URL(targetURL);
            connection = (HttpURLConnection)url.openConnection();

            connection.setRequestMethod("POST");
            connection.setRequestProperty("Content-Type", "application/x-www-form-urlencoded");
            connection.setRequestProperty("Content-Language", "en-US"); 
            connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11");
            connection.setUseCaches(false);
            connection.setDoInput(true);
            connection.setDoOutput(true);

            DataOutputStream dataout = new DataOutputStream(connection.getOutputStream());
            dataout.flush();
            dataout.close();

            InputStream is = connection.getInputStream();
            BufferedReader br = new BufferedReader(new InputStreamReader(is));
            String line;
            StringBuffer response = new StringBuffer();

            while((line = br.readLine()) != null){
                response.append(line);
                response.append('\n');
            }
            br.close();
            String html = response.toString();

我可以使用任何浏览器访问该网站,但是当我尝试使用Java获取html时获取java.io.IOException:服务器返回HTTP响应代码:403 for URL:

有人知道获取HTML的方法吗?

1 个答案:

答案 0 :(得分:1)

您最有可能获得HTTP 403响应,因为您的POST请求没有正文。您的代码看起来像是在尝试提交表单。如果您的目的是在不提交表单的情况下简单地下拉页面内容,请尝试GET请求,移除Content-Type标题,移除connection.setDoOutput(true),然后移除3 DataOutputStream线。