当我点击某个网站的“下载数据文件”时,它表示该文件可用于 5分钟。
如果我尝试在5分钟后使用url将文件导入到python中,我将收到错误消息。
当我从900多个站点下载多年的数据时,我不能每个站点每天每5分钟点击“下载数据文件”。
我想找出一种方法来阻止链接超时,任何想法都非常感谢!
P.S。这是我得到的具体错误:
HTTP状态404 - / database-browser / public / 类型状态报告 消息/数据库浏览器/公共/ description请求的资源(/ database-browser / public /)不可用。 Apache Tomcat / 5.5.27
P.P.S如果我从未点击过“下载数据文件”,我只是在2015-02-01到2014-02-01的网址中编辑日期,例如,有没有办法访问该文件?
答案 0 :(得分:0)
它看起来不像数据库超时本身;看起来他们有一个创建临时文件的脚本,下载五分钟,然后删除文件。
显而易见的解决方案是致电
http://sid.stanford.edu/database-browser/retrieve?starttime=2015-02-01T00.00.00&endtime=2015-02-02T00.00.00&res=1000x200&TZ=GMT&mss=true&sss=true&goes=true&goesFlareStrength=C1.0
(替换了适当的GET参数),
解析生成的HTML以查看它生成的文件(可能是1到多个), 然后在它/它们消失之前抓取文件。
使用requests
和beautifulsoup4
模块可以轻松实现此操作。
另一方面,为什么不联系那里的人并询问如何更好地访问数据?要问几张刻录的DVD可能会方便得多。