我需要使用Python从远程zip存档中读取与文件名匹配的选定文件。我不想将完整的zip保存到临时文件中(它不是那么大,所以我可以处理内存中的所有内容)。
我已经编写了代码并且它可以正常工作,我自己也在回答这个问题,所以我可以在以后搜索它。但由于有证据表明我是Stackoverflow的笨蛋参与者之一,我相信还有改进的余地。
答案 0 :(得分:8)
我是这样做的(抓住所有以“.ranks”结尾的文件):
import urllib2, cStringIO, zipfile
try:
remotezip = urllib2.urlopen(url)
zipinmemory = cStringIO.StringIO(remotezip.read())
zip = zipfile.ZipFile(zipinmemory)
for fn in zip.namelist():
if fn.endswith(".ranks"):
ranks_data = zip.read(fn)
for line in ranks_data.split("\n"):
# do something with each line
except urllib2.HTTPError:
# handle exception
答案 1 :(得分:3)
感谢Marcel提出的问题和答案(我在不同的上下文中遇到了同样的问题,并且遇到了与文件类对象相同的难度,而不是像文件一样)!就像更新一样:对于Python 3.0,您的代码需要稍微修改一下:
import urllib.request, io, zipfile
try:
remotezip = urllib.request.urlopen(url)
zipinmemory = io.BytesIO(remotezip.read())
zip = zipfile.ZipFile(zipinmemory)
for fn in zip.namelist():
if fn.endswith(".ranks"):
ranks_data = zip.read(fn)
for line in ranks_data.split("\n"):
# do something with each line
except urllib.request.HTTPError:
# handle exception
答案 2 :(得分:3)
这样就可以在不下载整个zip文件的情况下完成工作!
答案 3 :(得分:1)
请记住,仅解压缩ZIP文件可能会导致a security vulnerability。