在Storm Crawler中优先处理递归爬网

时间:2016-10-13 10:43:26

标签: web-crawler nutch stormcrawler

在抓取万维网时,我想给我的抓取工具一个初始的网址种子列表 - 并希望我的抓取工具在抓取过程中自动“发现”来自互联网的新种子网址。

我在Apach Nutch中看到了这样的选项(参见generate command of nutch中的topN参数)。 Storm Crawler中是否还有这样的选项?

1 个答案:

答案 0 :(得分:1)

StormCrawler可以处理递归爬网,URL的优先级取决于用于存储URL的后端。

例如Elasticsearch module可用于此,请参阅自述文件以获取简短教程和sample config file,其中默认情况下,spouts将根据其nextFetchDate(**。sort)对URL进行排序。字段*)。

在Nutch中,-topN参数仅指定要放入下一个段的最大URL数(基于使用的任何评分插件提供的分数)。使用StormCrawler,我们并不需要等效的东西,因为批次不处理,爬行不断运行。