我正在寻找wget或替代命令行来下载存储在dropbox上并从我的域链接到的pdf文件。这是我到目前为止所提出的,但我认为我的结构不正确。
wget --recursive --level=3 --no-directories --no-host-directories --reject-regex cat --reject-regex dog --accept-regex snake --accept-regex dropbox.com --accept pdf http://example.com/dogs-cats-snakes/snakes/files/main/
我希望wget从http://example.com/dogs-cats-snakes/snakes/files/main/开始,最多可达3级,以查找包含pdf文件的dropbox链接。我认为第一个问题是它从url中的dog和cat开始的链接,我不希望它忽略第一个内部的链接但忽略与dog / cat前进的任何其他链接。这很奇怪,因为在没有" - accept-regex dropbox.com"的情况下测试我的命令。在它里面,我仍然看到它爬行的猫狗页面,而不仅仅是蛇页,我不知道为什么。所以肯定有问题。如果它继续跟踪url中与dog / cat的链接,它会发现数以千计的链接没有我想要的正确的pdf文件,并且需要很长时间才能完成所有操作。我只想要从蛇页链接的pdf文件,无论它是否复数。另一个条件是我只想要存储在dropbox.com而不是任何其他网站的pdf文件。