我应该如何使用wget或httrack从文件夹(以及它的子文件夹)下载特定的文件类型?

时间:2016-05-23 07:12:54

标签: wget httrack

我尝试使用HTTrack或Wget从网站下载一些.docx文件。我想只对文件夹及其子文件夹执行此操作。例如:www.examplewebsite.com/doc(这又下降了5个级别)

如何做到这一点好方法?

2 个答案:

答案 0 :(得分:2)

你可以使用--spider -r(递归选项)并使用--accept来过滤你的intrest文件

wget --spider -r --accept "*.docx"  <url>

答案 1 :(得分:0)

之前提出的答案是荒谬的,因为“蜘蛛”选项总是特别没有下载,而是跟随。

迟到总比没有好,但是这里是您寻求在本地镜像所需文件扩展名文件的命令,但随后作为奖励下拉目标html并自动调整它,以便在本地打开它并单击链接,它们将被相应更改和调整,现在指向本地驱动器。

wget -e robots=off -r -k -A docx,doc "https://<url>"

如果这适合你,我会很感激答案!