应用错误收集

时间：2016-10-13 10:43:26

标签： web-crawler nutch stormcrawler

在抓取万维网时，我想给我的抓取工具一个初始的网址种子列表 - 并希望我的抓取工具在抓取过程中自动“发现”来自互联网的新种子网址。

我在Apach Nutch中看到了这样的选项（参见generate command of nutch中的topN参数）。 Storm Crawler中是否还有这样的选项？

答案 0 :(得分：1)

StormCrawler可以处理递归爬网，URL的优先级取决于用于存储URL的后端。

例如Elasticsearch module可用于此，请参阅自述文件以获取简短教程和sample config file，其中默认情况下，spouts将根据其nextFetchDate（**。sort）对URL进行排序。字段*）。

在Nutch中，-topN参数仅指定要放入下一个段的最大URL数（基于使用的任何评分插件提供的分数）。使用StormCrawler，我们并不需要等效的东西，因为批次不处理，爬行不断运行。