导入数据时如何覆盖数据库超时?

时间:2015-02-01 19:04:42

标签: python database

当我点击某个网站的“下载数据文件”时,它表示该文件可用于 5分钟

如果我尝试在5分钟后使用url将文件导入到python中,我将收到错误消息。

当我从900多个站点下载多年的数据时,我不能每个站点每天每5分钟点击“下载数据文件”。

我想找出一种方法来阻止链接超时,任何想法都非常感谢!

P.S。这是我得到的具体错误:

HTTP状态404 - / database-browser / public / 类型状态报告 消息/数据库浏览器/公共/ description请求的资源(/ database-browser / public /)不可用。 Apache Tomcat / 5.5.27

P.P.S如果我从未点击过“下载数据文件”,我只是在2015-02-01到2014-02-01的网址中编辑日期,例如,有没有办法访问该文件?

1 个答案:

答案 0 :(得分:0)

它看起来不像数据库超时本身;看起来他们有一个创建临时文件的脚本,下载五分钟,然后删除文件。

显而易见的解决方案是致电

http://sid.stanford.edu/database-browser/retrieve?starttime=2015-02-01T00.00.00&endtime=2015-02-02T00.00.00&res=1000x200&TZ=GMT&mss=true&sss=true&goes=true&goesFlareStrength=C1.0

(替换了适当的GET参数),

解析生成的HTML以查看它生成的文件(可能是1到多个), 然后在它/它们消失之前抓取文件。

使用requestsbeautifulsoup4模块可以轻松实现此操作。

另一方面,为什么不联系那里的人并询问如何更好地访问数据?要问几张刻录的DVD可能会方便得多。