使用httpclient检索完整的网页

时间:2010-01-22 06:35:13

标签: webpage httpclient save complete

我是java.i的新bie有一个问题我需要保存一个完整的网页(包括图像,CSS,javascript等所有内容),就像我们如何处理另存为>完整的网页选项使用HttpClient lib.plese向我展示了如何做到这一点。

3 个答案:

答案 0 :(得分:0)

你可以试试lib curl java http://curl.haxx.se/libcurl/java/

你也可以参考这个讨论 curl-equivalent-in-java

答案 1 :(得分:0)

您必须编写一个应用程序来获取html文件,解析它并提取所有引用,然后获取通过解析找到的所有文件。

答案 2 :(得分:0)

这并不容易,因为某些CSS / JS / Images文件路径可能是“隐藏”的。请考虑以下示例:

<script type="...">
   document.write("&bla;script" + " type='...' src='" + blahBlah() + "'&bla;" + "&bla;/script&bla;");
</script>

但是,获取页面源,解析URL以及下载已创建的URL几乎都是您可能需要的。