遍历/下载子域的页面/目录的正确选项

时间:2012-11-30 10:07:31

标签: bash curl download wget

假设存在一个包含以下目录(子域名)

的站点
index.php
|-sub1
   |-index.php
   |-sub1sub1
     |-index.php
     |-other.php
     |-sub1sub1sub1
|-sub2
   |-index.php
   |- ….
|-sub3
   |- ...

我的问题是:

  1. 如何在本地正确显示sub1子域的站点(http:// domain / sub1)?
  2. 我如何才能获得sub1(sub1sub1sub1sub1sub1的子节点的文件和目录?
  3. 我尝试了以下选项(对于wget),但它还检索sub2sub3等中的文件和目录。

    wget -E -H -k -K -r http://domain/sub1/index.php
    

    也许我应该在bash中写几行?

2 个答案:

答案 0 :(得分:2)

要显示已下载的网站,您需要使用重定向链接的--convert-links选项指向您的本地网页。

要仅获取“子”文件而不是父级文件,请使用-np表示--no-parent

如何使用指定递归最大深度的-l depth选项。

以下是您要查找的命令wget --mirror --page-requisites -np --convert-links -P /Folder-local http://domain/sub1/index.php

答案 1 :(得分:1)

wget -r -np http://domain/sub1/

如果您不想要其中的所有内容,可以使用蜘蛛模式首先获取列表

更详细的例子如下:

http://how-to.wikia.com/wiki/How_to_mirror,_spider,_or_archive_a_website