我使用以下代码将大型文件从Internet流式传输到本地文件中:
fp = open(file, 'wb')
req = urllib2.urlopen(url)
for line in req:
fp.write(line)
fp.close()
这有效,但下载速度很慢。有更快的方法吗? (文件很大,所以我不想把它们留在内存中。)
答案 0 :(得分:104)
没有理由一行一行地工作(小块并且需要Python来为你找到行结束! - ),只需将它放在更大的块中,例如:
# from urllib2 import urlopen # Python 2
from urllib.request import urlopen # Python 3
response = urlopen(url)
CHUNK = 16 * 1024
with open(file, 'wb') as f:
while True:
chunk = response.read(CHUNK)
if not chunk:
break
f.write(chunk)
尝试使用各种CHUNK尺寸来找到满足您要求的“最佳位置”。
答案 1 :(得分:63)
您还可以使用shutil:
import shutil
try:
from urllib.request import urlopen # Python 3
except ImportError:
from urllib2 import urlopen # Python 2
def get_large_file(url, file, length=16*1024):
req = urlopen(url)
with open(file, 'wb') as fp:
shutil.copyfileobj(req, fp, length)
答案 2 :(得分:6)
我曾经使用mechanize
模块及其Browser.retrieve()方法。在过去,它占用了100%的CPU并且下载的内容非常缓慢,但最近的一些版本修复了这个错误并且工作非常快。
示例:
import mechanize
browser = mechanize.Browser()
browser.retrieve('http://www.kernel.org/pub/linux/kernel/v2.6/testing/linux-2.6.32-rc1.tar.bz2', 'Downloads/my-new-kernel.tar.bz2')
Mechanize基于urllib2,所以urllib2也可以有类似的方法......但我现在找不到任何方法。
答案 3 :(得分:4)
您可以使用urllib.retrieve()下载文件:
示例:
try:
from urllib import urlretrieve # Python 2
except ImportError:
from urllib.request import urlretrieve # Python 3
url = "http://www.examplesite.com/myfile"
urlretrieve(url,"./local_file")