python在单个核心上下载多个URL(pdf,html,ppt,doc)。如何高效下载?

时间:2016-03-05 00:46:22

标签: python-2.7 python-requests

我正在构建一个从网址下载普通html网页,pdf,ppt,docs的应用。由于这是针对NLP的,我只关心文本并且不关心html标签。对于pdf,ppt,docs,我不能忽略所有额外的漏洞,但至少对于html页面我可以。

这是我写的一个函数:

def saveFiles(name,url,sizeLim,ftype):

    req = requests.head(url)
    #check file size first
    content_size=req.headers["content-length"]
    #file is too large, dont waste time download this
    if content_size>sizeLim:
        return None
    req = requests.get(url)

    with open(name+"."+ftype,"wb") as dfile:
        dfile.write(req.content)
    ...

这样可行,但它所做的就是限制下载过大的文件。有什么我能做的吗?如何下载纯文字html页面?是否可以使用pdf,ppt,docs进行优化?

0 个答案:

没有答案