使用regEx通过wget下载整个目录

时间:2019-04-14 10:20:28

标签: regex shell cygwin wget http-status-code-403

我想从网址中下载多个pdf文件-https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf

如果我确实使用了完整的URL,则它将下载文件wget https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf

但是,如果我尝试递归下载整个文件夹,那么它将返回403(禁止访问)

wget -r https://dummy.site.com/aabbcc/xyz/

我尝试通过设置用户代理,拒绝robots.txt和来自互联网的其他解决方案来解决问题,但是我又回到了同一点。

因此,我想将所有可能的URL列表考虑为给定的URL作为通用模式,而又不知道该怎么做。

我只知道我可以将该文件作为输入传递给wget,它将以递归方式下载文件。因此,在此处寻求使用regEx形成URL列表的帮助。 谢谢!

1 个答案:

答案 0 :(得分:1)

您无法使用通配符下载看不见的文件。如果主机不支持目录列表,则不知道文件名/路径是什么。另外,由于您不知道生成文件名的算法,因此无法生成和获取文件名。