Question

我正在尝试使用httrack（http://www.httrack.com/）来下载单个页面，而不是整个网站。因此，例如，当使用httrack下载www.google.com时，它应该只下载www.google.com下的html以及所有样式表，图片和javascript，而不是关注images.google.com的任何链接， labs.google.com或www.google.com/subdir/等

我尝试了-w选项，但没有任何区别。

什么是正确的命令？

修改

我尝试使用httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1但是它不会复制任何图像。

我基本上想要的只是下载该域的索引文件以及所有资产，而不是任何外部或内部链接的内容。

Answer 1

你能用wget而不是httrack吗？ wget -p将下载单个页面及其所有“先决条件”（图像，样式表）。

Answer 2

httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0  --depth=1 -n

-n选项（或--near）将在网页上下载图像，无论它位于何处。

假设图片位于google.com/foo/bar/logo.png。因为，你正在使用s0（保持在同一目录），它将不会下载图像，除非你指定--near

Answer 3

点击＆＃34;设置选项＆＃34;
转到标签＆＃34;限制＆＃34;
设置＆＃34;最大外部深度＆＃34;到0

Answer 4

看一下这个例子：

httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v

最后一部分是正则表达式。只需制作完全匹配的正则表达式。

httrack "http://www.google.com.au/" -O "/tmp/www.google.com.au" "+*.google.com.au/*" -v ---depth=2 --ext-depth=2

我必须进行本地化，否则我会获得重定向页面。您应该本地化到您指向的谷歌。

Answer 5

HTTTrack的目的是关注链接。尝试设置--ext-depth=0。

使用httrack镜像单页

5 个答案: