我正在尝试使用httrack(http://www.httrack.com/)来下载单个页面,而不是整个网站。因此,例如,当使用httrack下载www.google.com时,它应该只下载www.google.com下的html以及所有样式表,图片和javascript,而不是关注images.google.com的任何链接, labs.google.com或www.google.com/subdir/等
我尝试了-w
选项,但没有任何区别。
什么是正确的命令?
修改
我尝试使用httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1
但是它不会复制任何图像。
我基本上想要的只是下载该域的索引文件以及所有资产,而不是任何外部或内部链接的内容。
答案 0 :(得分:6)
你能用wget而不是httrack吗? wget -p
将下载单个页面及其所有“先决条件”(图像,样式表)。
答案 1 :(得分:5)
httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1 -n
-n选项(或--near)将在网页上下载图像,无论它位于何处。
假设图片位于google.com/foo/bar/logo.png。因为,你正在使用s0(保持在同一目录),它将不会下载图像,除非你指定--near
答案 2 :(得分:3)
答案 3 :(得分:2)
看一下这个例子:
httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v
最后一部分是正则表达式。只需制作完全匹配的正则表达式。
httrack "http://www.google.com.au/" -O "/tmp/www.google.com.au" "+*.google.com.au/*" -v ---depth=2 --ext-depth=2
我必须进行本地化,否则我会获得重定向页面。您应该本地化到您指向的谷歌。
答案 4 :(得分:0)
HTTTrack的目的是关注链接。尝试设置--ext-depth=0
。