应用错误收集

时间：2013-03-15 13:50:51

标签： wget

使用Wget我通常只收到一个 - index.html文件。我输入以下字符串：

只返回index.html文件，唉。

目录aa03意味着康德的书，第3卷，其中必须有大约560个文件（页面）。这些页面可在线阅读，但不会下载。任何补救措施？！ THX

答案 0 :(得分：4)

以下链接将我们带到：

wget不会跟随指向用户未指定的域的链接。由于korpora.zim.uni-duisburg-essen.de不等于korpora.org，wget不会跟随索引页面上的链接。

要解决此问题，请使用--span-hosts或-H。 -rH是一个非常危险的组合 - 结合起来，你可能会意外地抓取整个互联网 - 所以你要保持其范围非常紧密。此命令将执行您打算执行的操作：

wget -e robots = off -rH -l inf -np -D korpora.org，korpora.zim.uni-duisburg-essen.de http://korpora.org/kant/aa03/index.html

（ - np或--no-parent，将爬网限制为aa03 /.-D将其限制为仅限于这两个域。-l inf将无限爬行，受-D和-np约束）。