仅限Wget Mirror HTML

时间:2013-08-29 16:34:08

标签: wget scrape mirror

我有一个小网站,我尝试镜像到我的本地机器只有html文件,没有图像,图像附加文件... pdf,..等。

我之前从未反映过某个网站,并认为在做任何灾难性事件之前提出这个问题是个好主意。

这是我想要运行的命令,并想知道是否应该添加任何其他内容。

wget --mirror <url> 

谢谢!

2 个答案:

答案 0 :(得分:20)

-R-A选项用于拒绝接受特定文件类型。

还要考虑用于下载整个网站的带宽。您可能还想添加--random-wait选项。

如果要跳过所有图像和pdf,您的命令将类似于:

wget --mirror --random-wait -R gif,jpg,pdf <url>

注意:镜像网站可能违反政策,因此我建议您先检查。

来源:

答案 1 :(得分:2)

还有添加mimetypes过滤选项的wget补丁......