网站上的完整pdf不适用于公众。任何人都可以下载单页。因此,我使用bash for
循环
for i in {1..364}
do
wget -O $i.pdf "http://babel.hathitrust.org/cgi/imgsrv/download/pdf?id=njp.32101015068578;orient=0;size=100;seq=$i;attachment=0"
done
不幸的是,在下载了16页后,我开始
ERROR 503: Service Unavailable
如果我将wget更改为curl,则会收到following错误消息。首先,试用时间是5分钟。
解决方法是每16页添加5分钟的睡眠时间。但是有更好的解决方法吗?