基本爬虫/抓取工具,可以提供父URL下的所有URL

时间:2012-04-03 06:55:10

标签: web-scraping web-crawler

鉴于父网址(例如“http://dir.yahoo.com/News_and_Media/”),我想抓取此页面上的所有网址,直到深度为X.

即使深度标准迫使它这样做,我也不想转移到另一个域。防爆。在选择“http://dir.yahoo.com/News_and_Media/”时,我不想进入不在“dir.yahoo.com”下的深度2。

必须有一些工具可用于此事。

2 个答案:

答案 0 :(得分:3)

http://www.gnu.org/software/wget/

具体来说,您需要这些命令行选项:

$ wget -r http://www.example.com/ -l X

显然,您可以将“http://www.example.com/”替换为您选择的网址,将“X”替换为您想要的深度。

答案 1 :(得分:2)

尝试winhttrack