wget只下载一个index.html文件而不是其他大约500个html文件

时间:2013-03-15 13:50:51

标签: wget

使用Wget我通常只收到一个 - index.html文件。我输入以下字符串:

wget -e robots = off -r http://www.korpora.org/kant/aa03

只返回index.html文件,唉。

目录aa03意味着康德的书,第3卷,其中必须有大约560个文件(页面)。这些页面可在线阅读,但不会下载。任何补救措施?! THX

1 个答案:

答案 0 :(得分:4)

以下链接将我们带到:

http://korpora.zim.uni-duisburg-essen.de/kant/aa03/

wget不会跟随指向用户未指定的域的链接。由于korpora.zim.uni-duisburg-essen.de不等于korpora.org,wget不会跟随索引页面上的链接。

要解决此问题,请使用--span-hosts或-H。 -rH是一个非常危险的组合 - 结合起来,你可能会意外地抓取整个互联网 - 所以你要保持其范围非常紧密。此命令将执行您打算执行的操作:

wget -e robots = off -rH -l inf -np -D korpora.org,korpora.zim.uni-duisburg-essen.de http://korpora.org/kant/aa03/index.html

( - np或--no-parent,将爬网限制为aa03 /.-D将其限制为仅限于这两个域。-l inf将无限爬行,受-D和-np约束)。