Question

Nutch 1.9与ubuntu 12.04出现问题。我正在尝试抓取网站上提供的链接。我在seed.txt文件中给出了网址url。除了http.agent.name（New）属性和db.max.outlinks.per.page（-1）之外，我没有对默认配置进行任何更改。我正在使用以下命令来抓取 crawl urls test -depth 3
Crawler应该抓取3深度内可用的所有链接。但是当我运行以下linkdb命令时，只有5个链接可用。所有五个链接都在主页上提供

nutch readlinkdb test/linkdb -dump myoutput/out1<br/>

我是否错过了任何配置更改？请帮帮我。

Answer 1

使用-topN设置要在每个级别抓取的网址数量：

bin / nutch crawl $ URLS -dir $ CRAWL LOC -depth 3 -topN 1000

Answer 2

在Nutch 1.10中，db.ignore.internal.links默认为true，这意味着链接db不包含内部链接，只包含外部链接。如果您尚未更改默认设置，则链接数据库不会反映爬网的范围。如果要包含这些链接，可以在配置文件中将此属性的值更改为false。

如果要查看已爬网的所有链接，请转储爬网数据库。在1.10中，这是通过以下方式完成的：

bin/nutch readdb MyCrawl/crawldb/ -dump crawlout

我不确定1.9和1.10之间的区别是什么，但我想这些命令是相似的。（1.10版本说明并未表明内部链接的处理已发生变化。）

Nutch只抓取给定域中的少数几个链接

2 个答案: