StormCrawler如何识别种子网址?

时间:2018-09-20 15:17:06

标签: web-crawler apache-storm stormcrawler

我正在将mysql用作Storm爬虫。

我有100个种子URL,但我的缓冲区大小只有50个。

如果某些种子的出站落入零号存储桶中,将会发生什么情况。 在那种情况下,这些外链也将被视为种子吗?

风暴爬虫如何将种子网址与其他网址区分开?

1 个答案:

答案 0 :(得分:0)

不确定我能理解你的问题。种子URL和非种子URL之间没有区别。 StormCrawler不会以任何特定方式识别它们。术语种子URL 只是意味着它们是作为起点提供给搜寻器的。

不使用存储桶来区分URL的优先级或区分它们,它们是基于主机名或域的,以便多个spout实例可以并行读取它们,并确保出于性能目的站点的多样性。

StormCrawler中的SQL模块效率不如其他后端(如SOLR或Elasticsearch后端)高。它可以在一些网站上正常工作,但除此之外可能效率较低。