Question

当我点击某个网站的“下载数据文件”时，它表示该文件可用于 5分钟。

如果我尝试在5分钟后使用url将文件导入到python中，我将收到错误消息。

当我从900多个站点下载多年的数据时，我不能每个站点每天每5分钟点击“下载数据文件”。

我想找出一种方法来阻止链接超时，任何想法都非常感谢！

P.S。这是我得到的具体错误：

HTTP状态404 - / database-browser / public / 类型状态报告消息/数据库浏览器/公共/ description请求的资源（/ database-browser / public /）不可用。 Apache Tomcat / 5.5.27

P.P.S如果我从未点击过“下载数据文件”，我只是在2015-02-01到2014-02-01的网址中编辑日期，例如，有没有办法访问该文件？

Answer 1

它看起来不像数据库超时本身;看起来他们有一个创建临时文件的脚本，下载五分钟，然后删除文件。

显而易见的解决方案是致电

http://sid.stanford.edu/database-browser/retrieve?starttime=2015-02-01T00.00.00&endtime=2015-02-02T00.00.00&res=1000x200&TZ=GMT&mss=true&sss=true&goes=true&goesFlareStrength=C1.0

（替换了适当的GET参数），

解析生成的HTML以查看它生成的文件（可能是1到多个），然后在它/它们消失之前抓取文件。

使用requests和beautifulsoup4模块可以轻松实现此操作。

另一方面，为什么不联系那里的人并询问如何更好地访问数据？要问几张刻录的DVD可能会方便得多。

导入数据时如何覆盖数据库超时？

1 个答案: