应用错误收集

我正在构建一个从网址下载普通html网页，pdf，ppt，docs的应用。由于这是针对NLP的，我只关心文本并且不关心html标签。对于pdf，ppt，docs，我不能忽略所有额外的漏洞，但至少对于html页面我可以。

这是我写的一个函数：

def saveFiles(name,url,sizeLim,ftype):

    req = requests.head(url)
    #check file size first
    content_size=req.headers["content-length"]
    #file is too large, dont waste time download this
    if content_size>sizeLim:
        return None
    req = requests.get(url)

    with open(name+"."+ftype,"wb") as dfile:
        dfile.write(req.content)
    ...

这样可行，但它所做的就是限制下载过大的文件。有什么我能做的吗？如何下载纯文字html页面？是否可以使用pdf，ppt，docs进行优化？

python在单个核心上下载多个URL（pdf，html，ppt，doc）。如何高效下载？

0 个答案: