应用错误收集

时间：2018-09-20 15:17:06

标签： web-crawler apache-storm stormcrawler

我正在将mysql用作Storm爬虫。

我有100个种子URL，但我的缓冲区大小只有50个。

如果某些种子的出站落入零号存储桶中，将会发生什么情况。在那种情况下，这些外链也将被视为种子吗？

风暴爬虫如何将种子网址与其他网址区分开？

答案 0 :(得分：0)

不确定我能理解你的问题。种子URL和非种子URL之间没有区别。 StormCrawler不会以任何特定方式识别它们。术语种子URL 只是意味着它们是作为起点提供给搜寻器的。

不使用存储桶来区分URL的优先级或区分它们，它们是基于主机名或域的，以便多个spout实例可以并行读取它们，并确保出于性能目的站点的多样性。

StormCrawler中的SQL模块效率不如其他后端（如SOLR或Elasticsearch后端）高。它可以在一些网站上正常工作，但除此之外可能效率较低。