将发现的URL循环回以获取它们的正确方法是什么?

时间:2019-07-09 10:28:52

标签: web-crawler apache-storm stormcrawler

我已经从默认拓扑开始,但是想进行递归爬网。因此,我必须修改助焊剂文件,以将发现的URL循环回提取器,而且我不确定哪种方法是最好的方法?

是否有很好的方法来做到这一点?也许与Elasticsearch合作?

关于, 克里斯

1 个答案:

答案 0 :(得分:1)

在运行递归爬网时,您需要存储有关URL的信息。反馈到Fetcher是不够的,因为它不会考虑重复项,也不会为您安排任何调度。

外部模块中有很多选项,Elasticsearch是其中之一,您也可以使用SOLR或SQL后端。

有关如何将SC与ES结合使用的教程,请参见our Youtube channel

有一个StatusUpdater实现,它将发现的URL反馈给MemorySpout,但这仅对在本地模式下进行测试/调试有用。