我必须下载所有网站内容,然后解析下载的文件夹" * .pdf"文件。我正在使用wget -r --no-parent http://www.example.com/
下载网站但问题是有时链接看起来这个
http://www.foodmanufuture.eu/dpubs?f=K20
和下载的pdf下载名称" dpubs?f = K20"并且没有指定文件格式,它看起来不像这样" dpubs?f = K20.pdf",有没有办法检查我在这个文件夹中有多少pdf文件?
答案 0 :(得分:1)
您是否尝试过--content-disposition
旗帜?从手册页:
如果设置为on,则实验(不是完全功能)支持" Content-Disposition"标头已启用。这目前可以为服务器带来额外的往返行程,用于" HEAD"请求,并且已知会遇到一些错误,这就是默认情况下当前未启用的原因。 此选项对于某些使用" Content-Disposition"的文件下载CGI程序非常有用。用于描述下载文件名称的标题。
所以它试图向服务器询问文件名。我尝试使用你提供的URL,它似乎有效。
答案 1 :(得分:0)
您可以使用命令
file filename
像这样:
file pdfurl-guide
pdfurl-guide: PDF document, version 1.5
您可以使用:
file *
准确了解文件夹中的哪些文件是pdf文件