使用Python urllib2下载时忽略丢失的文件

时间:2016-08-09 19:12:23

标签: python python-2.7 urllib2

问题:正如标题所述,我将根据年份和日期从NOAA通过ftp下载数据。我已经将脚本配置为经历了一段时间并且每天下载数据。但是,在没有文件存在的日子里,脚本会挂起。发生的事情是它只是不断重新加载同一行说文件不存在。如果没有time.sleep(5),脚本会像疯了一样打印到日志中。

解决方案:以某种方式跳过失踪的一天并转到下一天。我已经探索了继续(也许我把它放在错误的位置),制作一个空目录(不优雅,仍然不会超过失踪的一天)。我不知所措,我忽略了什么?

以下是脚本:

##Working 24km
import urllib2
import time
import os
import os.path

flink = 'ftp://sidads.colorado.edu/DATASETS/NOAA/G02156/24km/{year}/ims{year}{day}_24km_v1.1.asc.gz'
days = [str(d).zfill(3) for d in range(1,365,1)]
years = range(1998,1999)
flinks = [flink.format(year=year,day=day) for year in years for day in days]

from urllib2 import Request, urlopen, URLError

for fname in flinks:
    dl = False
    while dl == False:
        try:
            # req = urllib2.Request(fname)
            req = urllib2.urlopen(fname)
            with open('/Users/username/Desktop/scripts_hpc/scratch/'+fname.split('/')[-1], 'w') as dfile:
            dfile.write(req.read())
            print 'file downloaded'
            dl = True

        except URLError, e:
            #print 'sleeping'
            print e.reason
            #print req.info()
            print 'skipping day: ', fname.split('/')[-1],' was not processed for ims'
            continue
            '''
            if not os.path.isfile(fname):
                f = open('/Users/username/Desktop/scripts_hpc/empty/'+fname.split('/')[-1], 'w')
                print 'day was skipped'
            '''

            time.sleep(5)

        else:
            break
            #everything is fine

研究:我已经浏览了其他问题而且他们已经接近了,但似乎并没有触及到头上。 Ignore missing files Python ftplib how to skip over a lines of a file if they aempty 非常感谢任何帮助!

谢谢!

2 个答案:

答案 0 :(得分:1)

我想当你站起来走开咖啡时,事情会变得清晰。显然有些东西在我的声明中被挂起(仍然不确定为什么)。当我把它拿出来并添加传递而不是继续时,它表现正常。

现在看来是这样的:

for fname in flinks:
    try:
        req = urllib2.urlopen(fname)
        with open('/Users/username/Desktop/scripts_hpc/scratch/'+fname.split('/')[-1], 'w') as dfile:
            dfile.write(req.read())
        print 'file downloaded'

    except URLError, e:
        print e.reason
        print 'skipping day: ', fname.split('/')[-1],' was not processed for ims'
        pass
        time.sleep(5)

答案 1 :(得分:1)

except上,使用pass代替continue,因为它只能在循环内使用(forwhile)。

有了这个,你不需要处理丢失的文件,因为Python只会忽略错误并继续前进。