多次HTTP重定向后自动下载pdf文件

时间:2015-04-14 10:07:20

标签: python urllib2 mechanize wget http-equiv

A / 38/7 / CORR.1(SUPP)我想在此页面下载所有pdf文件:[http://search.un.org/?query=A&searchTrigger=%E6%90%9C%E7%B4%A2+ODS&SS=DS&tpl=ods&lang=zh-cn]

一个示例链接是: A / 38/7 / CORR.1(SUPP) 。此链接将重定向两次到真正的pdf网址,并且需要cookie,它首先刷新到tmp网址(每次更改),通过:<META HTTP-EQUIV="refresh" CONTENT="0; URL=/TMP/625508.055090904.html">,然后页面刷新到真实网址,通过: <META HTTP-EQUIV="refresh" CONTENT="1; URL=http://daccess-dds-ny.un.org/doc/UNDOC/GEN/N83/368/31/PDF/N8336831.pdf?OpenElement">

这很容易在浏览器中完成,当我尝试批量下载使用wget或python时,似乎不可能。

wget:即使使用--load-cookie选项,我也无法从原始网址获取tmp网址

python:我试过urllib,urllib2和机械化,我无法处理自动刷新,无法获得真正的网址

有没有身体有一些暗示?非常感谢你。

0 个答案:

没有答案