如何使用Python Mechanize从基于Web的文件服务器下载文件

时间:2011-07-12 10:30:20

标签: python download mechanize

我在私有ftp文件服务器上有一系列文件,我试图使用mechanize下载。

机械化链接对象具有结构

Link(base_url='http://myfileserver.com/cgi-bin/index.cgi', url='index.cgi?page=download&file=%2Fhome%2Fjmyfileserver%2Fpublic_html%2Fuser_data%2Fmycompany%2F.ftpquota', text='Download [IMG]', tag='a', attrs=[('href', 'index.cgi?page=download&file=%2Fhome%2Fjmyfileserver%2Fpublic_html%2Fuser_data%2Fmycompany%2F.ftpquota'), ('class', 'ar')])

这基本上对应于文件图标链接到文件

的链接

我是机械化的新手 但是如何从

中下载链接文件
urlparse.urljoin(base_url , url)

将两者结合起来得到:

http://myfileserver.com/cgi-bin/index.cgi?page=download&file=%2Fhome%2Fjmyfileserver%2Fpublic_html%2Fuser_data%2Fmycompany%2F.ftpquota

我不知道如何继续。

我的原始代码

import mechanize
import subprocess
import urlparse
br = mechanize.Browser()
br.open("http://myfileserver.com/cgi-bin/index.cgi")
br.select_form(nr=0)
br['login'] = "mylogin"
br['password'] = "mypassword"
br.submit()
#print dir(br)
myfiles = []
for alink in br.links():
    print alink
    myfiles.append(alink)

def downloadlink(l):
    print " Trying to download", l.url.split("%2F")[-1]
    f=open(l.url.split("%2F")[-1],"w") 
    myurl = urlparse.urljoin(l.base_url,l.url)
    print myurl
    # Dont know how to proceed



for linkobj in myfiles:

    if "sca" in linkobj.url:
        #br.follow_link(text='[IMG]', nr=0)
        downloadlink(linkobj)

2 个答案:

答案 0 :(得分:5)

您可以尝试:

for index, linkobj in enumerate(myfiles):
    if "sca" in linkobj.url:
        resp = br.follow_link(text='Download [IMG]',nr=0)
        content = resp.read()
        with open('output%s.txt' % index, 'w') as fo:
           fo.write(content)

答案 1 :(得分:0)

如果您有ftp服务器,机械化不是下载文件的方式,您应该查看ftplib。这个tutorial应该可以帮助你。