我尝试使用HTTrack或Wget从网站下载一些.docx文件。我想只对文件夹及其子文件夹执行此操作。例如:www.examplewebsite.com/doc(这又下降了5个级别)
如何做到这一点好方法?
答案 0 :(得分:2)
你可以使用--spider -r(递归选项)并使用--accept来过滤你的intrest文件
wget --spider -r --accept "*.docx" <url>
答案 1 :(得分:0)
之前提出的答案是荒谬的,因为“蜘蛛”选项总是特别没有下载,而是跟随。
迟到总比没有好,但是这里是您寻求在本地镜像所需文件扩展名文件的命令,但随后作为奖励下拉目标html并自动调整它,以便在本地打开它并单击链接,它们将被相应更改和调整,现在指向本地驱动器。
wget -e robots=off -r -k -A docx,doc "https://<url>"
如果这适合你,我会很感激答案!