A / 38/7 / CORR.1(SUPP)我想在此页面下载所有pdf文件:[http://search.un.org/?query=A&searchTrigger=%E6%90%9C%E7%B4%A2+ODS&SS=DS&tpl=ods&lang=zh-cn]
一个示例链接是: A / 38/7 / CORR.1(SUPP) 。此链接将重定向两次到真正的pdf网址,并且需要cookie,它首先刷新到tmp网址(每次更改),通过:<META HTTP-EQUIV="refresh" CONTENT="0; URL=/TMP/625508.055090904.html">
,然后页面刷新到真实网址,通过: <META HTTP-EQUIV="refresh" CONTENT="1; URL=http://daccess-dds-ny.un.org/doc/UNDOC/GEN/N83/368/31/PDF/N8336831.pdf?OpenElement">
这很容易在浏览器中完成,当我尝试批量下载使用wget或python时,似乎不可能。
wget:即使使用--load-cookie选项,我也无法从原始网址获取tmp网址
python:我试过urllib,urllib2和机械化,我无法处理自动刷新,无法获得真正的网址
有没有身体有一些暗示?非常感谢你。