Question

我必须下载所有网站内容，然后解析下载的文件夹＆＃34; * .pdf＆＃34;文件。我正在使用wget -r --no-parent http://www.example.com/下载网站但问题是有时链接看起来这个

http://www.foodmanufuture.eu/dpubs?f=K20

和下载的pdf下载名称＆＃34; dpubs？f = K20＆＃34;并且没有指定文件格式，它看起来不像这样＆＃34; dpubs？f = K20.pdf＆＃34;，有没有办法检查我在这个文件夹中有多少pdf文件？

Answer 1

您是否尝试过--content-disposition旗帜？从手册页：

如果设置为on，则实验（不是完全功能）支持＆＃34; Content-Disposition＆＃34;标头已启用。这目前可以为服务器带来额外的往返行程，用于＆＃34; HEAD＆＃34;请求，并且已知会遇到一些错误，这就是默认情况下当前未启用的原因。 此选项对于某些使用＆＃34; Content-Disposition＆＃34;的文件下载CGI程序非常有用。用于描述下载文件名称的标题。

所以它试图向服务器询问文件名。我尝试使用你提供的URL，它似乎有效。

Answer 2

您可以使用命令

file filename

像这样：

file pdfurl-guide
pdfurl-guide: PDF document, version 1.5

您可以使用：

file *

准确了解文件夹中的哪些文件是pdf文件

Wget文件格式

2 个答案: