将网页保存为txt(不是网页代码)

时间:2016-04-14 10:08:18

标签: java web save

我想将网页保存为txtfile。 我不想保存代码,我根本不想要代码,我想将页面本身保存为txtfile然后我知道我想用txt文件做什么。

我使用以下代码打开页面

import java.awt.Desktop;
import java.net.URI;


public class Main {

public static void main(String[] args) throws Exception {

    Desktop d = Desktop.getDesktop();
    String url = "http://www.google.com";
    d.browse(new URI(url));
}

}

我也想隐藏浏览,可以吗?

为了更清楚,要将页面保存为txt,按CTRL + S然后选择txt。 我根本不想要页面的代码,我尝试使用缓冲的阅读器和输入流,但这根本不是我需要的,因为它们给了我不需要的URL代码。 谢谢你的建议。

1 个答案:

答案 0 :(得分:0)

您最好的选择是使用http://jsoup.org/

这将获得整个页面(我的意思是,使用代码):

public static String getHTML(String urlToRead) throws Exception {

        if (!urlToRead.startsWith("http"))
            urlToRead = "http://" + urlToRead;

        final StringBuilder result = new StringBuilder();
        final URL url = new URL(urlToRead);
        final HttpURLConnection conn = (HttpURLConnection) url.openConnection();
        conn.setRequestMethod("GET");
        conn.setRequestProperty("User-Agent", USER_AGENT);
//      @SuppressWarnings("unused")
//      final int responseCode = conn.getResponseCode();
        final BufferedReader rd = new BufferedReader(new InputStreamReader(conn.getInputStream()));

        String line;
        while ((line = rd.readLine()) != null)
            result.append(line);
        rd.close();

        return result.toString();
    }

然后您可以创建文档:

final Document doc = Jsoup.parse(content);  

从那以后,您就可以自行获取divspanp s ...

的列表