Wget文件格式

时间:2017-02-12 17:58:22

标签: pdf wget

我必须下载所有网站内容,然后解析下载的文件夹" * .pdf"文件。我正在使用wget -r --no-parent http://www.example.com/下载网站但问题是有时链接看起来这个

http://www.foodmanufuture.eu/dpubs?f=K20

和下载的pdf下载名称" dpubs?f = K20"并且没有指定文件格式,它看起来不像这样" dpubs?f = K20.pdf",有没有办法检查我在这个文件夹中有多少pdf文件?

2 个答案:

答案 0 :(得分:1)

您是否尝试过--content-disposition旗帜?从手册页:

  

如果设置为on,则实验(不是完全功能)支持" Content-Disposition"标头已启用。这目前可以为服务器带来额外的往返行程,用于" HEAD"请求,并且已知会遇到一些错误,这就是默认情况下当前未启用的原因。 此选项对于某些使用" Content-Disposition"的文件下载CGI程序非常有用。用于描述下载文件名称的标题。

所以它试图向服务器询问文件名。我尝试使用你提供的URL,它似乎有效。

答案 1 :(得分:0)

您可以使用命令

file filename

像这样:

file pdfurl-guide
pdfurl-guide: PDF document, version 1.5

您可以使用:

file * 

准确了解文件夹中的哪些文件是pdf文件