我正在构建一个从网址下载普通html网页,pdf,ppt,docs的应用。由于这是针对NLP的,我只关心文本并且不关心html标签。对于pdf,ppt,docs,我不能忽略所有额外的漏洞,但至少对于html页面我可以。
这是我写的一个函数:
def saveFiles(name,url,sizeLim,ftype):
req = requests.head(url)
#check file size first
content_size=req.headers["content-length"]
#file is too large, dont waste time download this
if content_size>sizeLim:
return None
req = requests.get(url)
with open(name+"."+ftype,"wb") as dfile:
dfile.write(req.content)
...
这样可行,但它所做的就是限制下载过大的文件。有什么我能做的吗?如何下载纯文字html页面?是否可以使用pdf,ppt,docs进行优化?