我已经从默认拓扑开始,但是想进行递归爬网。因此,我必须修改助焊剂文件,以将发现的URL循环回提取器,而且我不确定哪种方法是最好的方法?
是否有很好的方法来做到这一点?也许与Elasticsearch合作?
关于, 克里斯
答案 0 :(得分:1)
在运行递归爬网时,您需要存储有关URL的信息。反馈到Fetcher是不够的,因为它不会考虑重复项,也不会为您安排任何调度。
外部模块中有很多选项,Elasticsearch是其中之一,您也可以使用SOLR或SQL后端。
有关如何将SC与ES结合使用的教程,请参见our Youtube channel。
有一个StatusUpdater实现,它将发现的URL反馈给MemorySpout,但这仅对在本地模式下进行测试/调试有用。