如何用java从网页下载html

时间:2015-02-06 02:23:58

标签: java

我试图用我编写的快速java程序下载页面html,但我一直收到错误

<noscript>Your browser does not support JavaScript or JavaScript is not 
   turned on. Please enable JavaScript in your browser.<br></noscript> 

这是使用

的代码
public static void main(String[] args) throws Exception {
    System.setProperty("http.proxyHost", "127.0.0.1");
    System.setProperty("https.proxyHost", "127.0.0.1");
    System.setProperty("http.proxyPort", "8888");
    System.setProperty("https.proxyPort", "8888"); 

        URL x=new URL("");
        HttpURLConnection hc=(HttpURLConnection)x.openConnection();

        hc.setRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 6.0)AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.121 Safari/535.2");


        InputStream is=hc.getInputStream();

        int u=0;
        byte[] kj=new byte[1024];
        while((u=is.read(kj))!=-1)
       {
            System.out.write(kj,0,u);
        }
       is.close();
      }

有没有人有任何实际上会给我源html的解决方案?谢谢! 注意:我将URL留空,因为它是私有的

2 个答案:

答案 0 :(得分:0)

尝试Jsoup。 http://jsoup.org/

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
String htmlString = doc.html();

答案 1 :(得分:0)

这完全正常。它被放入HTML代码中,这样如果您的浏览器不支持/关闭Javascript,它将显示它。否则,它会忽略它。这就是网站显示Javascript关闭的警告的方式。