使用python下载大量文件

时间:2014-06-24 23:40:43

标签: python download urllib2

有没有一种很好的方法可以使用python大量下载大量文件?此代码足够快速下载大约100个左右的文件。但我需要下载300,000个文件。显然它们都是非常小的文件(或者我不会下载300,000个:))所以真正的瓶颈似乎是这个循环。有人有想法吗?也许使用MPI或线程?

我只需要忍受瓶颈吗?或者有更快的方法,甚至可能没有使用python?

(为了完整起见,我包含了代码的完整开头)

from __future__ import division
import pandas as pd
import numpy as np
import urllib2
import os
import linecache 

#we start with a huge file of urls

data= pd.read_csv("edgar.csv")
datatemp2=data[data['form'].str.contains("14A")]
datatemp3=data[data['form'].str.contains("14C")]

#data2 is the cut-down file

data2=datatemp2.append(datatemp3)
flist=np.array(data2['filename'])
print len(flist)
print flist

###below we have a script to download all of the files in the data2 database
###here you will need to create a new directory named edgar14A14C in your CWD

original=os.getcwd().copy()
os.chdir(str(os.getcwd())+str('/edgar14A14C'))


for i in xrange(len(flist)):
    url = "ftp://ftp.sec.gov/"+str(flist[i])
    file_name = str(url.split('/')[-1])
    u = urllib2.urlopen(url)
    f = open(file_name, 'wb')
    f.write(u.read())
    f.close()
    print i

1 个答案:

答案 0 :(得分:15)

multiprocessing的通常模式是创建一个job()函数,该函数接受参数并执行一些可能受CPU限制的工作。

示例:基于您的代码

from multiprocessing import Pool

def job(url):
    file_name = str(url.split('/')[-1])
    u = urllib2.urlopen(url)
    f = open(file_name, 'wb')
    f.write(u.read())
    f.close()

pool = Pool()
urls = ["ftp://ftp.sec.gov/{0:s}".format(f) for f in flist]
pool.map(job, urls)

这将做很多事情:

  • 创建一个多处理池和一组工作者,因为你有CPU或CPU核心
  • 创建job()函数的输入列表。
  • 将输入列表urls映射到job()并等待所有作业完成。

Python的multiprocessing.Pool.map将负责将您的输入分配到no。池中的工人。

我为此类工作做的另一件有用的小事是使用progress这样:

from multiprocessing import Pool


from progress.bar import Bar


def job(input):
    # do some work


pool = Pool()
inputs = range(100)
bar = Bar('Processing', max=len(inputs))
for i in pool.imap(job, inputs):
    bar.next()
bar.finish()

当你的工作正在进行时,这会为你的控制台提供一个很好的进度条,这样你就可以了解进度和eta等。

我还发现requests库在这里非常有用,并且有一套更好的API用于处理Web资源和下载内容。