应用错误收集

将发现的URL循环回以获取它们的正确方法是什么？

时间：2019-07-09 10:28:52

标签： web-crawler apache-storm stormcrawler

我已经从默认拓扑开始，但是想进行递归爬网。因此，我必须修改助焊剂文件，以将发现的URL循环回提取器，而且我不确定哪种方法是最好的方法？

是否有很好的方法来做到这一点？也许与Elasticsearch合作？

关于，克里斯

1 个答案:

答案 0 :(得分：1)

在运行递归爬网时，您需要存储有关URL的信息。反馈到Fetcher是不够的，因为它不会考虑重复项，也不会为您安排任何调度。

外部模块中有很多选项，Elasticsearch是其中之一，您也可以使用SOLR或SQL后端。

有关如何将SC与ES结合使用的教程，请参见our Youtube channel。

有一个StatusUpdater实现，它将发现的URL反馈给MemorySpout，但这仅对在本地模式下进行测试/调试有用。