我想通过使用wget抓取pdf来存储一个托管大量pdf文件的站点,同时保留该站点的目录结构。我想定期回到站点以复制站点上的任何新文件-但只能重新下载新文件和/或目录。换句话说,我要避免复制以前的wget运行已复制的内容。
运行以下命令几乎可以解决该问题:
wget -nv -m -np -c -w 3 --no-check-certificate -a /path/to/logfile -R "index.html*" -P /path/to/copy "https://source.site/source-directory/"
这只会复制新文件,但似乎会创建目录和子目录的新文件实例,将它们命名为directory.1,目录/sub-directory.1等。是否有避免这种行为的方法?