我在搜索引擎上工作,我希望有一个jsoup网络爬虫来从网站获取页面并将这些页面存储在我的本地硬盘驱动器中,例如C:\ tmp。你能帮帮我吗
谢谢;)
答案 0 :(得分:0)
您可以使用jsoup尝试此操作。
try {
Document doc = Jsoup.connect("http://en.wikipedia.org/wiki/Main_Page").get();
String html = doc.html();
BufferedWriter out = new BufferedWriter(new FileWriter("c:/tmp/wiki.html"));
out.write(html);
out.close();
} catch (IOException e) {
e.printStackTrace();
}
它会在目录wiki.html
中生成一个名为c:/tmp/
的文件,其中包含维基百科的主页面。