我试图从 scopus 服务器(elsvier)下载多个页面,所以我想创建一个脚本来为我下载所有页面。链接具有相同的URL格式,如下所示:
http://www.scopus.com/inward/record.url?eid=2-s2.0-28644441748&partnerID=40&md5=a288ef4fdcb4351c42fcd3fa945e7caa
问题是当我使用任何浏览器访问时,页面就是这个页面(我要下载的页面):
http://www.scopus.com/record/display.url?eid=2-s2.0-28644441748&origin=inward&txGid=BD21DBB3C2103B1C0FA75BE0440AF33B.aqHV0EoE4xlIF3hgVWgA%3a15
但是当我尝试下一个wget时:
wget -O SocupsData --user-agent="Mozilla/5.0 (Windows NT 5.2; rv:2.0.1) Gecko/20100101 Firefox/4.0.1" http://www.scopus.com/inward/record.url?eid=2-s2.0-28644441748&partnerID=40&md5=a288ef4fdcb4351c42fcd3fa945e7caa
它下载了一个错误页面,如下所示:
www.scopus.com/inward/record.url?eid=2-s2.0-28644441748
我认为它可能是重定向,因为在输出中发送302状态,但我不确定。
为什么会这样?如何下载所有网页?