Question

我有以下网站http://www.asd.com.tr。我想将所有PDF文件下载到一个目录中。我尝试了几个命令，但运气不好。

$ wget --random-wait -r -l inf -nd -A pdf http://www.asd.com.tr/

使用此代码只下载了四个PDF文件。查看此链接，有超过数千个PDF可用：

例如，以下文件夹中有数百个文件：

但我无法弄清楚如何正确访问它们以查看和下载它们，此子目录中有一些文件夹，http://www.asd.com.tr/Folders/以及这些文件夹中的数千个PDF文件。

我尝试使用-m命令镜像网站，但也失败了。

还有其他建议吗？

Answer 1

首先，验证网站的TOS是否允许抓取它。然后，一个解决方案是：

mech-dump --links 'http://domain.com' |
    grep pdf$ |
    sed 's/\s+/%20/g' |
    xargs -I% wget http://domain.com/%

mech-dump命令附带Perl的模块WWW::Mechanize（debian＆amp; debian上的libwww-mechanize-perl包喜欢发行版）