使用ES 6.5.x和Storm爬网程序1.10。我如何加快搜寻器的速度以获取记录。当我检查其爬网指标时,平均每秒显示0.4页。在下面的搜寻器配置中,我需要更改什么吗?
Crawler-Conf:
<input
type='button'
id='input1'
:class='["btn", error && "btn-success" ]'
value='Submit'/>
答案 0 :(得分:1)
如果要爬网一个站点,则不需要2个工作程序或一个以上的ES碎片和喷口!无论如何,所有URL都将定向到单个分片!
每个队列使用5个线程,但每个桶仅从ES检索2个URL( es.status.max.urls.per.bucket:2 ),并在两次ES调用之间强制使用2秒( spout.min.delay.queries:2000 ),因此,平均而言,喷口每秒生成的网址不能超过1个。此外, ES_IndexInit.sh 中的 refresh_interval 也会影响索引中可见更改的速度,从而影响从请求中获取新URL的可能性。
只需将 es.status.max.urls.per.bucket 更改为较大的值,例如10,然后将 spout.min.delay.queries 拖放到与 ES_IndexInit.sh 中的 refresh_interval 相同的值,例如1秒。这将为您提供更多的URL。