Question

我正在使用以下命令抓取一个包含788个链接的页面：

nutch crawl urls/ -dir crawls -depth 1 -topN 1000

以上命令只能找到72个网址！这是输出 nutch readdb ./crawls/crawldb/ -stats：

CrawlDb statistics start: ./crawls/crawldb/

Statistics for CrawlDb: ./crawls/crawldb/

TOTAL urls: 72

retry 0:    72

min score:  0.009

avg score:  0.026777778

max score:  1.279

status 1 (db_unfetched):    71

status 2 (db_fetched):  1

CrawlDb statistics: done

我的regex-urlfilter.txt有默认设置，我正在使用Nutch 1.4。

感谢任何帮助。

Answer 1

我有类似的问题。在我的情况下，属性http.content.limit是问题所在。默认值为“65536”。如果您的网页较大，则会被截断，链接可能会丢失。

Nutch crawler只在给定页面上找到链接的子集？

1 个答案: