我将Apache Nutch 2.0源码移植到我的项目中,可以修改&直接构建它。根据我的阅读,-topN参数确定该深度/页面中有多少顶级评分链接将排队。实际上,网上可用的资源让我感到困惑,这引出了我的第一个问题:
-topN
是否与每个深度的链接最高得分相对应?或者每页?我的第二个:
topN = 2
,1种子网址是从此深度聚合然后排序的链接?或者只对页内链接进行排序?这假设每页topN
。我想要做的是改变Nutch的广度优先行为。我希望首先抓取得分最多的链接,无论它们来自哪个深度。根据我的理解,Nutch首先抓取所有种子网址,然后抓取topN
的所有depth=1
个链接,然后抓取topN
的{{1}}个链接等等......我想要的是什么要做的是:
这引出了我这些问题:
答案 0 :(得分:0)
在Nutch的GenerateJob中使用TopN来获取要在FetchJob中获取的前N个最高排名得分网址。它不是每页的爬行深度。
您可以通过修改nutch-site.xml文件中的<name>http.content.limit</name>
值来更改深度。