我有以下网站http://www.asd.com.tr。我想将所有PDF文件下载到一个目录中。我尝试了几个命令,但运气不好。
$ wget --random-wait -r -l inf -nd -A pdf http://www.asd.com.tr/
使用此代码只下载了四个PDF文件。查看此链接,有超过数千个PDF可用:
例如,以下文件夹中有数百个文件:
但我无法弄清楚如何正确访问它们以查看和下载它们,此子目录中有一些文件夹,http://www.asd.com.tr/Folders/以及这些文件夹中的数千个PDF文件。
我尝试使用-m
命令镜像网站,但也失败了。
还有其他建议吗?
答案 0 :(得分:8)
首先,验证网站的TOS是否允许抓取它。然后,一个解决方案是:
mech-dump --links 'http://domain.com' |
grep pdf$ |
sed 's/\s+/%20/g' |
xargs -I% wget http://domain.com/%
mech-dump
命令附带Perl的模块WWW::Mechanize
(debian& debian上的libwww-mechanize-perl
包喜欢发行版)