如何只镜像一个网站的一部分?

时间:2011-05-26 22:01:08

标签: wget mirror

我无法使用wget来镜像网站的一部分(根目录下的文件夹路径) - 它似乎只能在网站主页上工作。

我尝试了很多选项 - 这是一个例子

wget -rkp -l3 -np  http://somewebsite/subpath/down/here/

虽然我只想镜像该URL下面的内容链接 - 我还需要下载不在该路径中的所有页面资源。

它似乎适用于主页(/),但我不能让它适用于任何子文件夹。

4 个答案:

答案 0 :(得分:82)

使用--mirror-m)和--no-parent-np)选项,以及一些很酷的选项,如下例所示:

wget --mirror --page-requisites --adjust-extension --no-parent --convert-links
     --directory-prefix=sousers http://stackoverflow.com/users

答案 1 :(得分:17)

我通常使用:

wget -m -np -p $url

答案 2 :(得分:2)

我使用pavuk来完成镜像,因为从一开始它似乎就更好了。你可以使用这样的东西:

/usr/bin/pavuk -enable_js -fnrules F '*.php?*' '%o.php' -tr_str_str '?' '_questionmark_' \
               -norobots -dont_limit_inlines -dont_leave_dir \
               http://www.example.com/some_directory/ >OUT 2>ERR

答案 3 :(得分:0)

签出archivebox.io,这是一个开放源代码,自托管工具,可创建网站的本地,静态,可浏览HTML克隆(可保存HTML,JS,媒体文件,PDF,屏幕截图,静态资产等)

默认情况下,它仅存档您指定的URL,但是我们很快将添加一个--depth=n标志,这将使您可以递归地存档来自给定URL的链接。