使用Wget我通常只收到一个 - index.html文件。我输入以下字符串:
wget -e robots = off -r http://www.korpora.org/kant/aa03
只返回index.html文件,唉。
目录aa03意味着康德的书,第3卷,其中必须有大约560个文件(页面)。这些页面可在线阅读,但不会下载。任何补救措施?! THX
答案 0 :(得分:4)
以下链接将我们带到:
http://korpora.zim.uni-duisburg-essen.de/kant/aa03/
wget不会跟随指向用户未指定的域的链接。由于korpora.zim.uni-duisburg-essen.de不等于korpora.org,wget不会跟随索引页面上的链接。
要解决此问题,请使用--span-hosts或-H。 -rH是一个非常危险的组合 - 结合起来,你可能会意外地抓取整个互联网 - 所以你要保持其范围非常紧密。此命令将执行您打算执行的操作:
wget -e robots = off -rH -l inf -np -D korpora.org,korpora.zim.uni-duisburg-essen.de http://korpora.org/kant/aa03/index.html
( - np或--no-parent,将爬网限制为aa03 /.-D将其限制为仅限于这两个域。-l inf将无限爬行,受-D和-np约束)。