我正在将mysql用作Storm爬虫。
我有100个种子URL,但我的缓冲区大小只有50个。
如果某些种子的出站落入零号存储桶中,将会发生什么情况。 在那种情况下,这些外链也将被视为种子吗?
风暴爬虫如何将种子网址与其他网址区分开?
答案 0 :(得分:0)
不确定我能理解你的问题。种子URL和非种子URL之间没有区别。 StormCrawler不会以任何特定方式识别它们。术语种子URL 只是意味着它们是作为起点提供给搜寻器的。
不使用存储桶来区分URL的优先级或区分它们,它们是基于主机名或域的,以便多个spout实例可以并行读取它们,并确保出于性能目的站点的多样性。
StormCrawler中的SQL模块效率不如其他后端(如SOLR或Elasticsearch后端)高。它可以在一些网站上正常工作,但除此之外可能效率较低。