应用错误收集

A / 38/7 / CORR.1（SUPP）我想在此页面下载所有pdf文件：[http://search.un.org/?query=A&searchTrigger=%E6%90%9C%E7%B4%A2+ODS&SS=DS&tpl=ods&lang=zh-cn]

一个示例链接是： A / 38/7 / CORR.1（SUPP） 。此链接将重定向两次到真正的pdf网址，并且需要cookie，它首先刷新到tmp网址（每次更改），通过：<META HTTP-EQUIV="refresh" CONTENT="0; URL=/TMP/625508.055090904.html">，然后页面刷新到真实网址，通过： <META HTTP-EQUIV="refresh" CONTENT="1; URL=http://daccess-dds-ny.un.org/doc/UNDOC/GEN/N83/368/31/PDF/N8336831.pdf?OpenElement">

这很容易在浏览器中完成，当我尝试批量下载使用wget或python时，似乎不可能。

wget：即使使用--load-cookie选项，我也无法从原始网址获取tmp网址

python：我试过urllib，urllib2和机械化，我无法处理自动刷新，无法获得真正的网址

有没有身体有一些暗示？非常感谢你。

多次HTTP重定向后自动下载pdf文件

0 个答案: