鉴于父网址(例如“http://dir.yahoo.com/News_and_Media/”),我想抓取此页面上的所有网址,直到深度为X.
即使深度标准迫使它这样做,我也不想转移到另一个域。防爆。在选择“http://dir.yahoo.com/News_and_Media/”时,我不想进入不在“dir.yahoo.com”下的深度2。
必须有一些工具可用于此事。
答案 0 :(得分:3)
http://www.gnu.org/software/wget/
具体来说,您需要这些命令行选项:
$ wget -r http://www.example.com/ -l X
显然,您可以将“http://www.example.com/”替换为您选择的网址,将“X”替换为您想要的深度。
答案 1 :(得分:2)