Question

我想从网址中下载多个pdf文件-https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf

如果我确实使用了完整的URL，则它将下载文件wget https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf

但是，如果我尝试递归下载整个文件夹，那么它将返回403（禁止访问）

wget -r https://dummy.site.com/aabbcc/xyz/

我尝试通过设置用户代理，拒绝robots.txt和来自互联网的其他解决方案来解决问题，但是我又回到了同一点。

因此，我想将所有可能的URL列表考虑为给定的URL作为通用模式，而又不知道该怎么做。

我只知道我可以将该文件作为输入传递给wget，它将以递归方式下载文件。因此，在此处寻求使用regEx形成URL列表的帮助。谢谢！

Answer 1

您无法使用通配符下载看不见的文件。如果主机不支持目录列表，则不知道文件名/路径是什么。另外，由于您不知道生成文件名的算法，因此无法生成和获取文件名。