Question

我无法使用wget来镜像网站的一部分（根目录下的文件夹路径） - 它似乎只能在网站主页上工作。

我尝试了很多选项 - 这是一个例子

wget -rkp -l3 -np  http://somewebsite/subpath/down/here/

虽然我只想镜像该URL下面的内容链接 - 我还需要下载不在该路径中的所有页面资源。

它似乎适用于主页（/），但我不能让它适用于任何子文件夹。

Answer 1

使用--mirror（-m）和--no-parent（-np）选项，以及一些很酷的选项，如下例所示：

wget --mirror --page-requisites --adjust-extension --no-parent --convert-links
     --directory-prefix=sousers http://stackoverflow.com/users

Answer 2

我通常使用：

wget -m -np -p $url

Answer 3

我使用pavuk来完成镜像，因为从一开始它似乎就更好了。你可以使用这样的东西：

/usr/bin/pavuk -enable_js -fnrules F '*.php?*' '%o.php' -tr_str_str '?' '_questionmark_' \
               -norobots -dont_limit_inlines -dont_leave_dir \
               http://www.example.com/some_directory/ >OUT 2>ERR

Answer 4

签出archivebox.io，这是一个开放源代码，自托管工具，可创建网站的本地，静态，可浏览HTML克隆（可保存HTML，JS，媒体文件，PDF，屏幕截图，静态资产等）

默认情况下，它仅存档您指定的URL，但是我们很快将添加一个--depth=n标志，这将使您可以递归地存档来自给定URL的链接。

如何只镜像一个网站的一部分？

4 个答案: