Nutch只抓取给定域中的少数几个链接

时间:2014-11-03 07:49:14

标签: web-crawler nutch

Nutch 1.9与ubuntu 12.04出现问题。我正在尝试抓取网站上提供的链接。我在seed.txt文件中给出了网址url。除了http.agent.name(New)属性和db.max.outlinks.per.page(-1)之外,我没有对默认配置进行任何更改。我正在使用以下命令来抓取 crawl urls test -depth 3
Crawler应该抓取3深度内可用的所有链接。但是当我运行以下linkdb命令时,只有5个链接可用。所有五个链接都在主页上提供

nutch readlinkdb test/linkdb -dump myoutput/out1<br/>

我是否错过了任何配置更改?请帮帮我。

2 个答案:

答案 0 :(得分:0)

使用-topN设置要在每个级别抓取的网址数量:

bin / nutch crawl $ URLS -dir $ CRAWL LOC -depth 3 -topN 1000

答案 1 :(得分:0)

在Nutch 1.10中,db.ignore.internal.links默认为true,这意味着链接db不包含内部链接,只包含外部链接。如果您尚未更改默认设置,则链接数据库不会反映爬网的范围。如果要包含这些链接,可以在配置文件中将此属性的值更改为false。

如果要查看已爬网的所有链接,请转储爬网数据库。在1.10中,这是通过以下方式完成的:

bin/nutch readdb MyCrawl/crawldb/ -dump crawlout

我不确定1.9和1.10之间的区别是什么,但我想这些命令是相似的。 (1.10版本说明并未表明内部链接的处理已发生变化。)