我正在尝试使用wget以递归方式从特定网站中抓取.jpg文件,以便为自己创建一个有趣的屏幕保护程序。真的不是一个崇高的目标。
问题是图片是在其他地方(mfrost.typepad.com)托管的,而不是在网站的主域名(www.cuteoverload.com)。
我尝试使用“-D”指定允许的域名,但遗憾的是没有可爱的jpgs即将发布。我怎么能改变下面这一行才能使它发挥作用?
wget -r -l2 -np -w1 -D www.cuteoverload.com,mfrost.typepad.com -A.jpg -R.html.php.gif www.cuteoverload.com/
感谢。
答案 0 :(得分:12)
对 wget 的手册[1]的检查说这关于-D:
设置要遵循的域。 domain-list是以逗号分隔的域列表。请注意,它不会打开-H。
关于-H的这个建议看起来很有趣:
在执行递归检索时启用跨主机的跨越。
因此,您只需要在调用中添加-H标志。
(完成此操作后,看起来所有图像都限于 mfrost.typepad.com/cute_overload/images/2008/12/07 和 mfrost.typepad.com/cute_overload/图像/ 2008/12月8日的)。
- [1]虽然 wget 的主要参考手册是信息格式。