使用Java来抓取并下载覆盖HttpsURLConnection的整个网站

时间:2017-01-19 22:18:46

标签: web-crawler nutch crawler4j websphinx

我希望抓取整个网站并将其保存在本地离线状态。它应该有两部分:

  1. 验证
  2. 这需要使用Java实现,我需要覆盖HttpsURLConnection逻辑以添加几行身份验证(Hadoop)以获取url响应(keytabs)。如下所示:

         AuthenticatedURL.Token token = new AuthenticatedURL.Token();
    
        URL ur = new URL(url);
        //HttpsURLConnection.setDefaultHostnameVerifier(new     HostnameVerifierSSL());
        HttpsURLConnection con = (HttpsURLConnection) new AuthenticatedURL().openConnection(ur, token);
    
    1. 一旦所有链接都经过上述身份验证,我们需要抓取entre网站,直到深度= 3并将其作为zip保存在本地离线。
    2. 让我知道可能的解决方案。

0 个答案:

没有答案