Question

我尝试使用HTTrack或Wget从网站下载一些.docx文件。我想只对文件夹及其子文件夹执行此操作。例如：www.examplewebsite.com/doc（这又下降了5个级别）

如何做到这一点好方法？

Answer 1

你可以使用--spider -r（递归选项）并使用--accept来过滤你的intrest文件

wget --spider -r --accept "*.docx"  <url>

Answer 2

之前提出的答案是荒谬的，因为“蜘蛛”选项总是特别没有下载，而是跟随。

迟到总比没有好，但是这里是您寻求在本地镜像所需文件扩展名文件的命令，但随后作为奖励下拉目标html并自动调整它，以便在本地打开它并单击链接，它们将被相应更改和调整，现在指向本地驱动器。

wget -e robots=off -r -k -A docx,doc "https://<url>"

如果这适合你，我会很感激答案！