我正在尝试使用以下命令下载整个网页
wget -p -k www.myspace.com/
这会下载该目录下的页面和任何图像或脚本,但我正在尝试找出如何下载该页面以便完全脱机查看。如何在www.myspace.com的源代码中链接每个图像,脚本和样式表,包括外部链接?
答案 0 :(得分:9)
wget -e robots=off -H -p -k http://www.myspace.com/
-H或--span-hosts标志是完整镜像所必需的,因为该页面可能包含www.myspace.com域外的主机上的内容。忽略机器人以获得良好的衡量标准。
答案 1 :(得分:-1)
wget -mk http://www.myspace.com/
适合我。我不确定myspace或你想要专门镜像的任何网站,但有时你必须传递一些其他选项来绕过无机器人策略。我不会说如何做到这一点,因为这意味着你正在做一些你不应该做的事情。虽然这绝对是可能的。