Jsoup将页面抓取到我的本地驱动器

时间:2014-03-05 20:00:38

标签: html search download jsoup web-crawler

我在搜索引擎上工作,我希望有一个jsoup网络爬虫来从网站获取页面并将这些页面存储在我的本地硬盘驱动器中,例如C:\ tmp。你能帮帮我吗

谢谢;)

1 个答案:

答案 0 :(得分:0)

您可以使用jsoup尝试此操作。

    try {
        Document doc = Jsoup.connect("http://en.wikipedia.org/wiki/Main_Page").get();
        String html = doc.html();
        BufferedWriter out = new BufferedWriter(new FileWriter("c:/tmp/wiki.html"));
        out.write(html);
        out.close();
    } catch (IOException e) {
        e.printStackTrace();
    }

它会在目录wiki.html中生成一个名为c:/tmp/的文件,其中包含维基百科的主页面。